python蜘蛛爬虫

2012-02-29

求一个python蜘蛛爬虫需求是这样的，给出一个URL。通过这个URL抓取页面中其他URL，然后递归调用抓取页面，把从

求一个python蜘蛛爬虫
需求是这样的，给出一个URL。通过这个URL抓取页面中其他URL，然后递归调用抓取页面，把从第一个页面中的URL拿出来继续爬行抓取。结构大致是这样的1-->N-->N*N这样的关系视图。一直抓取到资源耗尽或者使用爬行深度来结束爬行。
网上有很多这样的示例，不过大多都不太完善，我自己动手写的时候也遇到很多情况。比如我只指定抓取该页面的URL，但是有时候这个页面里面有友情链接的外连URL，这样在我第二次深度爬行的时候，抓取连接就会跑到另外一个网站去抓取页面，然后导致无线循环。第二个问题和第一个大致相同，有的URL连接是重复的，所以程序就会锁死这个URL然后不断的递归循环。第三个问题是遇到相对路径或者绝对路径的问题。对于抓取到的相对路径必须要补完他，不然第二次循环的时候传递过去的只是相对路径，程序就打不开这个页面。来这里问了很多问题，自己也写了很多天，一直没有完成。非常感谢大家的帮助，在这里希望那位可以贴出一段符合需求的代码给我参考，谢谢了。其实解决办法我都已经有思路并且想好了，但是由于学习Python只有2个礼拜，很多东西无法实现。如果方便可以加我QQ指导，我的QQ2276913426.谢谢了

[解决办法]

探讨
比如不是http开头的也或许有其他网站的二级域名，或者邮箱，JS代码之类的连接。

热点排行

perl python

python蜘蛛爬虫