垂直搜寻,用heritrix抓取网页数据时,数据过滤不彻底
垂直搜索,用heritrix抓取网页数据时,数据过滤不彻底我在做垂直搜索,数据来源是太平电脑网,我关心的是里面
垂直搜索,用heritrix抓取网页数据时,数据过滤不彻底
我在做垂直搜索,数据来源是太平电脑网,我关心的是里面的手机信息,我定制heritrix的FrontierScheduler类,代码如下:
请帮我看看,这数据抓的正常吗?我看了里面的有些数据,感觉垃圾数据挺多的。我还刚开始弄搜索引擎,请多多指教!!
[解决办法]顶顶~~~~~~