windows环境下nutch2.x 在eclipse中实现抓取数据存进mysql详细步骤
nutch2.x 在eclipse中实现抓取数据存进mysql步骤
最近在研究nutch,花了几天时间,也遇到很多问题,最终结果还是成功了,在此记录,并给其他有兴趣的人提供参考,共同进步。
对nutch的实现过程熟悉下,就可以实现电影采集网站了 如 无为电影在线
1)准备eclipse 安装Maven ,svn
2)在svn中下载官方2.x最新源码(参考官方http://wiki.apache.org/nutch/RunNutchInEclipse说明)
3)把工程转成maven工程,等系统下载依赖包
4)这时候可能有红叉,因为缺少jar包,这是pom的问题
这些是我们运行org.apache.nutch.crawl.Crawler类时所用到的插件。
下一步,配置文件的配置。
首先是nutch-site.xml的配置(nutch-default.xml这个文件不需要配置,网上有的说要修改这个,其实没有必要,这是默认配置,如果需要修改,我们可以在nutch-site.xml中这个属性,会覆盖nutch-default.xml中的属性)
把nutch-default中<!-- HTTP properties -->下面的一段http的属性复制过来,并给value赋值,默认是没有值的。
然后再增加插件和数据源的配置
// generate batchId int randomSeed = Math.abs(new Random().nextInt()); String batchId = (System.currentTimeMillis() / 1000) + "-" + randomSeed; getConf().set(BATCH_ID, batchId);
5、最后nutch2.x官方版本问题太多了,相当麻烦。写的过程中可能有遗漏,有问题及时交流。