首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 数据库 > Mysql >

windows环境停nutch2.x 在eclipse中实现抓取数据存进mysql详细步骤

2013-10-08 
windows环境下nutch2.x 在eclipse中实现抓取数据存进mysql详细步骤nutch2.x 在eclipse中实现抓取数据存进m

windows环境下nutch2.x 在eclipse中实现抓取数据存进mysql详细步骤
nutch2.x 在eclipse中实现抓取数据存进mysql步骤

最近在研究nutch,花了几天时间,也遇到很多问题,最终结果还是成功了,在此记录,并给其他有兴趣的人提供参考,共同进步。

 对nutch的实现过程熟悉下,就可以实现电影采集网站了   如     无为电影在线

1、环境搭建

1)准备eclipse   安装Maven ,svn

2)在svn中下载官方2.x最新源码(参考官方http://wiki.apache.org/nutch/RunNutchInEclipse说明)

3)把工程转成maven工程,等系统下载依赖包

4)这时候可能有红叉,因为缺少jar包,这是pom的问题

这些是我们运行org.apache.nutch.crawl.Crawler类时所用到的插件。


下一步,配置文件的配置。

首先是nutch-site.xml的配置(nutch-default.xml这个文件不需要配置,网上有的说要修改这个,其实没有必要,这是默认配置,如果需要修改,我们可以在nutch-site.xml中这个属性,会覆盖nutch-default.xml中的属性)

把nutch-default中<!-- HTTP properties -->下面的一段http的属性复制过来,并给value赋值,默认是没有值的。

然后再增加插件和数据源的配置

   // generate batchId        int randomSeed = Math.abs(new Random().nextInt());        String batchId = (System.currentTimeMillis() / 1000) + "-" + randomSeed;        getConf().set(BATCH_ID, batchId); 



5、最后

nutch2.x官方版本问题太多了,相当麻烦。写的过程中可能有遗漏,有问题及时交流。


热点排行