首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > perl python >

python蜘蛛爬虫

2012-02-29 
求一个python蜘蛛爬虫需求是这样的,给出一个URL。通过这个URL抓取页面中其他URL,然后递归调用抓取页面,把从

求一个python蜘蛛爬虫
需求是这样的,给出一个URL。通过这个URL抓取页面中其他URL,然后递归调用抓取页面,把从第一个页面中的URL拿出来继续爬行抓取。结构大致是这样的1-->N-->N*N这样的关系视图。一直抓取到资源耗尽或者使用爬行深度来结束爬行。
  网上有很多这样的示例,不过大多都不太完善,我自己动手写的时候也遇到很多情况。比如我只指定抓取该页面的URL,但是有时候这个页面里面有友情链接的外连URL,这样在我第二次深度爬行的时候,抓取连接就会跑到另外一个网站去抓取页面,然后导致无线循环。第二个问题和第一个大致相同,有的URL连接是重复的,所以程序就会锁死这个URL然后不断的递归循环。第三个问题是遇到相对路径或者绝对路径的问题。对于抓取到的相对路径必须要补完他,不然第二次循环的时候传递过去的只是相对路径,程序就打不开这个页面。来这里问了很多问题,自己也写了很多天,一直没有完成。非常感谢大家的帮助,在这里希望那位可以贴出一段符合需求的代码给我参考,谢谢了。其实解决办法我都已经有思路并且想好了,但是由于学习Python只有2个礼拜,很多东西无法实现。如果方便可以加我QQ指导,我的QQ2276913426.谢谢了

[解决办法]

探讨
比如不是http开头的也或许有其他网站的二级域名,或者邮箱,JS代码之类的连接。

热点排行