首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网络技术 > 网络基础 >

基于Nutch的正题爬虫

2013-01-02 
基于Nutch的主题爬虫看了很多关于nutch的文章,但都是一些方法论、思想之类的,很抽象请问谁有基于nutch的某

基于Nutch的主题爬虫
看了很多关于nutch的文章,但都是一些方法论、思想之类的,很抽象
请问谁有基于nutch的某个主题爬虫相关程序,可以发来参考参考么?

自己看了一些nutch的文章,想说做nutch的主题爬虫可能无外乎在这3个地方修改
1 修改nutch源码的fetch类,在抓取网页时就尽量抓取和自己主题相关的链接
2 对于抓取下来的网页,解析网页内容,看是否有符合自己主题的相关内容,过滤和主题无关的网页。
3 nutch是单字索引,如果能改用中文分词进行索引,应该能提高效率(这点和主题爬虫无关)

这是我自己思考的,不知道是否可行,希望大家指教,或者有相关的主题爬虫程序源码发我借鉴一下也好。
[解决办法]
不懂 Nutch   帮顶
[解决办法]
第三点已实现~~上两点用插件的形式改~~挺麻烦的,还不如自己写一一个
[解决办法]

引用:
看了很多关于nutch的文章,但都是一些方法论、思想之类的,很抽象
请问谁有基于nutch的某个主题爬虫相关程序,可以发来参考参考么?

自己看了一些nutch的文章,想说做nutch的主题爬虫可能无外乎在这3个地方修改
1 修改nutch源码的fetch类,在抓取网页时就尽量抓取和自己主题相关的链接
2 对于抓取下来的网页,解析网页内容,看是否有符合自己主题的相关内容,过滤和主题无关的……


第三点相当容易,你可以看点lucene的书

热点排行