干什么的？研究作弊？该如何处理

2012-02-29

干什么的？研究作弊？ - 专题开发/技术/项目 / Google技术社区这个社区有什么主题啊，不会就这样聊天吧，总是

干什么的？研究作弊？ - 专题开发/技术/项目 / Google技术社区
这个社区有什么主题啊，不会就这样聊天吧，总是要解决一些技术问题的吧。

小第的搜索:
http://www.ruansou.com

[解决办法]
jf.org
[解决办法]
应该是SEO
[解决办法]
~!~
接分混脸熟
[解决办法]
HTTP Status 500 -
[解决办法]
hehe
[解决办法]
同问
[解决办法]
很支持这个版块，见意再开个hacker攻防版块，csdn不应该老研究程序，也应该研究下安全方面
[解决办法]
研究如何盗窃他人成果！
[解决办法]
网站优化也是以后越来越重要的东东了支持这个板块
[解决办法]
同意楼主。

用了你的搜索引擎，
没有想到还能搜索出东西来，
觉得速度也挺快的。
真的很不错。

我也发一些东西，
给大家看看，
希望大家不要觉得过时。

网络爬虫与搜索技术

互联网其实就是一张大图，我们可以把每一个网页当作一个节点，把那些超链接(Hyperlinks)当作连接网页的弧。很多读者可能已经注意到，网页中那些蓝色的、带有下划线的文字背后其实藏着对应的网址，当你点下去的的时候，浏览器是通过这些隐含的网址转到相应的网页中的。这些隐含在文字背后的网址称为“超链接”。有了超链接，我们可以从任何一个网页出发，用图的遍历算法，自动地访问到每一个网页并把它们存起来。完成这个功能的程序叫做网络爬虫，或者在一些文献中称为 "机器人 "（Robot）。世界上第一个网络爬虫是由麻省理工学院(MIT)的学生马休.格雷（Matthew Gray）在1993年写成的。他给他的程序起了个名字叫“互联网漫游者”( "www wanderer ")。以后的网络爬虫越写越复杂，但原理是一样的。
比如雅虎公司（Google没有公开公布我们的数目，所以我这里举了雅虎的索引大小为例）宣称他们索引了200亿个网页，假如下载一个网页需要一秒钟，下载这200亿个网页则需要634年。因此，一个商业的网络爬虫需要有成千上万个服务器，并且由快速网络连接起来。如何建立这样复杂的网络系统，如何协调这些服务器的任务，就是网络设计和程序设计的艺术了。

----------------------------------------

摘抄网址：

http://www.googlezuocepaiming.cn/googlepaimingjishu07.htm

热点排行

网络协议

干什么的？研究作弊？该如何处理