首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 其他教程 > 开源软件 >

nutch 搜寻site dedup

2012-06-26 
nutch 搜索site dedup这个版本发现有个大大的bug,就是搜索时同一页面出现重复,不同页面也出现重复。即使有c

nutch 搜索site dedup

这个版本发现有个大大的bug,就是搜索时同一页面出现重复,不同页面也出现重复。即使有check dedup功能,也不起作用。

后来把代码修改一个才行,被搞晕。。。

?

?

其实关键代码就在于NutchBean.search(query)中。以下来分析一下。

?

?

一。概念

hitsPerPage:相当count of a page

hitsPerSite:that is how many elements in a site per whole searches by same keyword

totalIsExact:如果没有site dup,那么就是true

numHits:就是期望的topn

seen:dedulicated set

?

二。流程

首先外部有个大循环,根据length()进行;内?一个loop,表明如果是有dup site便进行扩展搜索。

?

其实

其实这里的功能相当上图中的最后一行功能。


?
nutch 搜寻site dedup

?

这就是similarity功能了,与site相当,只是在最后显示而已。


?
nutch 搜寻site dedup
?
nutch 搜寻site dedup
?
nutch 搜寻site dedup

?

无意中发现bing的搜索有这样的結果:每页只有一个url。。。

?

?
nutch 搜寻site dedup

?

?

其实这个site功能的搜索总数是不固定的,就像上图一样,每次搜索結果都不一样,所以gg也是不同的页数显示数量不一样。但在nutch中,是故意将total先保存下来,最后和reset,就显得总数保持不变,其实这样做是不对的。应该向gg学习!

?

?

?

?

热点排行