干什么的?研究作弊? - 专题开发/技术/项目 / Google技术社区
这个社区有什么主题啊,不会就这样聊天吧,总是要解决一些技术问题的吧。
小第的搜索:
http://www.ruansou.com
[解决办法]
jf.org
[解决办法]
应该是SEO
[解决办法]
~!~
接分混脸熟
[解决办法]
HTTP Status 500 -
[解决办法]
hehe
[解决办法]
同问
[解决办法]
很支持这个版块,见意再开个hacker攻防版块,csdn不应该老研究程序,也应该研究下安全方面
[解决办法]
研究如何盗窃他人成果!
[解决办法]
网站优化也是以后越来越重要的东东了 支持这个板块
[解决办法]
同意楼主。
用了你的搜索引擎,
没有想到还能搜索出东西来,
觉得速度也挺快的。
真的很不错。
我也发一些东西,
给大家看看,
希望大家不要觉得过时。
网络爬虫与搜索技术
互联网其实就是一张大图,我们可以把每一个网页当作一个节点,把那些超链接(Hyperlinks)当作连接网页的弧。很多读者可能已经注意到,网页中那些蓝色的、带有下划线的文字背后其实藏着对应的网址,当你点下去的的时候,浏览器是通过这些隐含的网址转到相应的网页中的。这些隐含在文字背后的网址称为“超链接”。有了超链接,我们可以从任何一个网页出发,用图的遍历算法,自动地访问到每一个网页并把它们存起来。完成这个功能的程序叫做网络爬虫,或者在一些文献中称为 "机器人 "(Robot)。世界上第一个网络爬虫是由麻省理工学院(MIT)的学生马休.格雷(Matthew Gray)在1993年写成的。他给他的程序起了个名字叫“互联网漫游者”( "www wanderer ")。以后的网络爬虫越写越复杂,但原理是一样的。
比如雅虎公司(Google没有公开公布我们的数目,所以我这里举了雅虎的索引大小为例)宣称他们索引了200亿个网页,假如下载一个网页需要一秒钟,下载这200亿个网页则需要634年。因此,一个商业的网络爬虫需要有成千上万个服务器,并且由快速网络连接起来。如何建立这样复杂的网络系统,如何协调这些服务器的任务,就是网络设计和程序设计的艺术了。
----------------------------------------
摘抄网址:
http://www.googlezuocepaiming.cn/googlepaimingjishu07.htm