用哪个开源的网络爬虫好?
想爬一些特定的网站,希望爬虫智能一点的.
网上有很多开源的网络爬虫,哪个好?
[解决办法]
推荐一本书吧《Lucene2.0+Heritrix 开发自己的搜索引擎》
http://www.amazon.cn/mn/detailApp?qid=1206790316&ref=SR&sr=1-10&uid=168-4368919-6427450&prodid=zjbk517436
[解决办法]
这本书很不错!
爬虫用的是Heritrix
[解决办法]
偶用的是wget+shell脚本