首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 软件管理 > 软件架构设计 >

大伙进来讨论一下人立方关系搜索用到的算法

2013-06-26 
大家进来讨论一下人立方关系搜索用到的算法。几天前上人立方关系搜索 http://renlifang.msra.cn/ 觉得挺有

大家进来讨论一下人立方关系搜索用到的算法。
    几天前上人立方关系搜索 http://renlifang.msra.cn/ 觉得挺有趣的。
    
    我觉得名字的这些关系肯定是从很多网页中筛选出来的。而且还要判断这个人可能与哪些人认识。

    这里的难点有,在一个网页中怎么提取名字的信息。而且,就算能筛选出名字的信息,但是信息量很大,如果A B C三人都在同一张网页中,怎么确定A认识B又或者不认识C呢。

    我尝试搜索了自己的名字,显示的关系中,我认识的人有两个,我查找这些结果依据的网页,发现该网页还有我认识的几个人的名字,一张网页这么多名字,该搜索引擎是用了什么优化的算法才能保证结果尽可能准确呢?

    大家都来说说自己的想法。
   
  
    
[解决办法]
个人见解:

词对的挖掘,假如你有网页去重技术(主要是消除转载),那么一旦两个人的名字在K个网页中同时出现,那么就认为认识,小于K就认为不认识。

或者对某些网站进行加权,例如一些新闻报道网,都是人工编辑的,可信度较高。

热点排行