Nutch和CasperJS的区别
http://bingozhao.com/blog/?p=53
研究淘宝产品数据抓取的时候遇到动态内容读取的问题(淘宝上的价格,评论信息是通过JS动态加载的),Nutch在这方面并未考虑。
对应的解决方案是基于Webkit/Geko等浏览器核心创建的Headless Browser Agent,比如casperjs(基于pantomjs),可以灵活实现各种模拟用户操作并动态更新DOM结构已获得动态内容。基本上用户可以看到的信息(文字,图片等等)通过这个代理都可以抓取到,有效解决了动态数据抓取的问题。
casperjs脚本基于Javascript(或者Coffeescript),基本编程风格很适合页面前端编程人员进行DOM遍历,查找,还可以动态扩展额外脚本(比如模拟用户操作的脚本)等,使用起来比较简单。存在的问题是:
1. 相比于Nutch这个高效抓取全文静态页面的好帮手来说,casperjs太慢了。前者基本上是在ms级别,后者为秒级,差了1000倍,当然这是因为强调用户交互的动态性,增加了更多的客户端和服务端连接,更多的数据解析功能,并且JS本身基于解释性语言的缘故,性能自然不能跟Nutch比。
2. casperjs还是不太完善,有比较多的bug需要修正。比如对于selector的选取并没有那么鲁棒性,经常需要调试来调整代码的输出以避免selector耍性子。
Headless Webkit/Geko Agent/Spider应该是适应未来发展的,希望能逐渐改善处理速度,满足实时数据抓取的需求。(按照现在目测casperjs抓取解析的速度,一个中等复杂页面上几个关键字模板抓取内容的时间在5秒左右,这样算下来要抓取100万个页面需要差不多一年,必须使用大规模的分布式集群进行抓取才能取得实际产品环境的效果)