首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网络技术 > 网络基础 >

请教一上,百度和google是如何获得大量的网站信息的

2013-01-05 
请问一下,百度和google是怎么获得大量的网站信息的搜索引擎的原理是下载所有网站的信息,然后计算关键字,用

请问一下,百度和google是怎么获得大量的网站信息的
搜索引擎的原理是下载所有网站的信息,然后计算关键字,用户输入关键字后,搜索引擎再返回本地网页

问题:
搜索引擎是怎样获取这么多网站的信息?
通过url吗?
[解决办法]
爬取到一个页面, 然后解析出页面中的URL, 然后再根据这些URL再去爬取页面。

你可能会问这不是一直不会结束吗?
会结束的,因为页面的数量是一定的,并且一般的机器人都会做判断,比如是第五层以下(一般根据你的站点的rank值)的页面, 就不再抓取。

至于页面有没有更新,办法很多,如判断页面的时间(HTTP协议中有),判断内容长度是否有变化, 甚至再GET一遍, 下计算出内容的检验值,如用MD5的方法,如果与上次的值不同, 说明有变化。 机器人先是每周一次去访问一个页面,如果这个页面每次都有变化, 那么它会记下来,以后需要“勤快”一些,变成每三天检查一次。如果发现你的页面每次都一样,那它就高兴了,以后省点事,每个月来检查一次就够了。
[解决办法]
据说google的服务器分布在世界(未证实),因为它用的是分布式存储,
spider 的爬网要分为很多策略,而且spider 还要有礼貌(它们一直爬,服务器还怎么响应用户请求),所以可以分地区的爬网,我们可以在中国白天的时候,爬美国的网页,相信google 也是这样做的,

前两天,看了看搜索引擎的书,才了解,搜索引擎编程,真是"寸土寸金",每个bit,都要用好,压缩几乎要用及至。
个人感觉只用 C++ 才能胜任。

热点排行