如何把nutch导入myeclipse
?
?? 如何把整个nutch导入myeclipse
1:准备好nutch的源码开放包,我这里使用的nutch-0.9
2:file->new->java project->从已有的项目导入 然后选择你解压过的nutch文件夹
?
这事需要把conf文件夹修改成Default output folder?方法是右键properties -> java build path >source-> ?output floder 选择conf确定即可,
?
一般确定以后会把conf中以前的文件清空掉,在重新把nutch压缩包里的conf下的所有文件复制到工程的conf下
千万不要把新生成的配置文件删掉
?
3:还需要另外的两个jar文件 把这两个jar添加到构建路径 结束上附件
?http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-mp3/lib/
?http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-rtf/lib/
?
?
配置nutch
为处理方便,直接在nutch工程下创建一个名为url.txt文件,然后在文件里添加要搜索的网址,例如:http://www.sina.com.cn/,注意网址最后的"/"一定要有。前面的"http://"也是必不可少的。
2.配置crawl-urlfilter.txt打开工程conf/crawl-urlfilter.txt文件,找到这两行
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
红色部分是一个正则,改写为如下形式
????+^http://([a-z0-9]*\.)*com.cn/
????+^http://([a-z0-9]*\.)*cn/?
????+^http://([a-z0-9]*\.)*com/
注意:“+”号前面不要有空格。
3.修改conf\nutch-site.xml为如下内容,否则不会抓取。
<configuration>
<property>
?????<name>http.agent.name</name>
?????<value>*</value>
</property>
</configuration>
在conf/nutch-defaul.xml下,将属性"plugin.folders"的值由“plugins”更改为 "./src/plugin" 如何nutch是1.0的则不用修改
?
?
run-> open run dialog
显示一个对话框,projcet 选择你新建的工程
main class 选择 org.apache.nutch.crawl.Crawl
点击arguments ?在program?arguments?
?添加?url.txt -dir crawled -depth 3 -topN 50
?如果是nutch-1.0还需要设置vm arguments(虚拟机)的参数
设置为?-Xms32m -Xmx800m即可
urls -dir crawl -depth 3 -topN 50
( urls是存放入口地址的文件夹(在工程的根目录建新建一个urls的目录,
里面新建一个文本文件,也可以没有后缀名,在里面填写url 比如: http://www.163.com/),
-dir创建一个名为 crawl 的文件夹,里面就是我们抓取回来的数据存放地方
-depth 3 采集深度 3层 topN 最大页数
)
?
?
1 楼 oolala 2010-11-08 好文章,就是卡在conf设置为源目录那里。感谢 2 楼 zha_zi 2010-11-19 oolala 写道好文章,就是卡在conf设置为源目录那里。感谢