首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网络技术 > 网络基础 >

基于Nutch的主题爬虫解决办法

2012-02-27 
基于Nutch的主题爬虫看了很多关于nutch的文章,但都是一些方法论、思想之类的,很抽象请问谁有基于nutch的某

基于Nutch的主题爬虫
看了很多关于nutch的文章,但都是一些方法论、思想之类的,很抽象
请问谁有基于nutch的某个主题爬虫相关程序,可以发来参考参考么?

自己看了一些nutch的文章,想说做nutch的主题爬虫可能无外乎在这3个地方修改
1 修改nutch源码的fetch类,在抓取网页时就尽量抓取和自己主题相关的链接
2 对于抓取下来的网页,解析网页内容,看是否有符合自己主题的相关内容,过滤和主题无关的网页。
3 nutch是单字索引,如果能改用中文分词进行索引,应该能提高效率(这点和主题爬虫无关)

这是我自己思考的,不知道是否可行,希望大家指教,或者有相关的主题爬虫程序源码发我借鉴一下也好。

[解决办法]
不懂 Nutch 帮顶
[解决办法]
第三点已实现~~上两点用插件的形式改~~挺麻烦的,还不如自己写一一个
[解决办法]

探讨
看了很多关于nutch的文章,但都是一些方法论、思想之类的,很抽象
请问谁有基于nutch的某个主题爬虫相关程序,可以发来参考参考么?

自己看了一些nutch的文章,想说做nutch的主题爬虫可能无外乎在这3个地方修改
1 修改nutch源码的fetch类,在抓取网页时就尽量抓取和自己主题相关的链接
2 对于抓取下来的网页,解析网页内容,看是否有符合自己主题的相关内容,过滤和主题无关的……

热点排行