首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网络技术 > 网络基础 >

垂直搜寻,用heritrix抓取网页数据时,数据过滤不彻底

2012-12-29 
垂直搜索,用heritrix抓取网页数据时,数据过滤不彻底我在做垂直搜索,数据来源是太平电脑网,我关心的是里面

垂直搜索,用heritrix抓取网页数据时,数据过滤不彻底
我在做垂直搜索,数据来源是太平电脑网,我关心的是里面的手机信息,我定制heritrix的FrontierScheduler类,代码如下:


请帮我看看,这数据抓的正常吗?我看了里面的有些数据,感觉垃圾数据挺多的。我还刚开始弄搜索引擎,请多多指教!!
[解决办法]
顶顶~~~~~~

热点排行