首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > JAVA > Eclipse开发 >

怎么把nutch导入myeclipse

2012-07-15 
如何把nutch导入myeclipse??? 如何把整个nutch导入myeclipse1:准备好nutch的源码开放包,我这里使用的nutch

如何把nutch导入myeclipse

?

?? 如何把整个nutch导入myeclipse

1:准备好nutch的源码开放包,我这里使用的nutch-0.9

2:file->new->java project->从已有的项目导入 然后选择你解压过的nutch文件夹

?

这事需要把conf文件夹修改成Default output folder?方法是右键properties -> java build path >source-> ?output floder 选择conf确定即可,

?

一般确定以后会把conf中以前的文件清空掉,在重新把nutch压缩包里的conf下的所有文件复制到工程的conf下

千万不要把新生成的配置文件删掉

?

3:还需要另外的两个jar文件 把这两个jar添加到构建路径 结束上附件

怎么把nutch导入myeclipse?http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-mp3/lib/

怎么把nutch导入myeclipse?http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-rtf/lib/

?

?

  • 配置nutch

    • 为处理方便,直接在nutch工程下创建一个名为url.txt文件,然后在文件里添加要搜索的网址,例如:http://www.sina.com.cn/,注意网址最后的"/"一定要有。前面的"http://"也是必不可少的。

      2.配置crawl-urlfilter.txt

      打开工程conf/crawl-urlfilter.txt文件,找到这两行

      # accept hosts in MY.DOMAIN.NAME

      +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

      红色部分是一个正则,改写为如下形式

      ????+^http://([a-z0-9]*\.)*com.cn/
      ????+^http://([a-z0-9]*\.)*cn/?
      ????+^http://([a-z0-9]*\.)*com/

    • 注意:“+”号前面不要有空格。

    • 3.修改conf\nutch-site.xml为如下内容,否则不会抓取。

      <configuration>

      <property>

      ?????<name>http.agent.name</name>

      ?????<value>*</value>

      </property>

      </configuration>

      在conf/nutch-defaul.xml下,将属性"plugin.folders"的值由“plugins”更改为 "./src/plugin" 如何nutch是1.0的则不用修改

      ?

      ?

      run-> open run dialog

      显示一个对话框,projcet 选择你新建的工程

      main class 选择 org.apache.nutch.crawl.Crawl

      点击arguments ?在program?arguments?

      ?添加?url.txt -dir crawled -depth 3 -topN 50

      ?如果是nutch-1.0还需要设置vm arguments(虚拟机)的参数

      设置为?-Xms32m -Xmx800m即可

      urls -dir crawl -depth 3 -topN 50
      ( urls是存放入口地址的文件夹(在工程的根目录建新建一个urls的目录,
      里面新建一个文本文件,也可以没有后缀名,在里面填写url 比如: http://www.163.com/),
      -dir创建一个名为 crawl 的文件夹,里面就是我们抓取回来的数据存放地方 

      -depth 3 采集深度 3层 topN 最大页数

      ?

      ?

      1 楼 oolala 2010-11-08   好文章,就是卡在conf设置为源目录那里。感谢 2 楼 zha_zi 2010-11-19   oolala 写道好文章,就是卡在conf设置为源目录那里。感谢
      呵呵,把nutch导入myecplise确实有一点小麻烦,后边的麻烦更多,web启动爬虫,
      更换分词器,坚持一下,找找原因应该可以解决的,我当时用的是nutch1.0 ,可能版本不一样conf或许是有点不一样,反正1.0的用法在0.9上是不可以的

热点排行