大家进来讨论一下人立方关系搜索用到的算法。
几天前上人立方关系搜索 http://renlifang.msra.cn/ 觉得挺有趣的。
我觉得名字的这些关系肯定是从很多网页中筛选出来的。而且还要判断这个人可能与哪些人认识。
这里的难点有,在一个网页中怎么提取名字的信息。而且,就算能筛选出名字的信息,但是信息量很大,如果A B C三人都在同一张网页中,怎么确定A认识B又或者不认识C呢。
我尝试搜索了自己的名字,显示的关系中,我认识的人有两个,我查找这些结果依据的网页,发现该网页还有我认识的几个人的名字,一张网页这么多名字,该搜索引擎是用了什么优化的算法才能保证结果尽可能准确呢?
大家都来说说自己的想法。
[解决办法]
个人见解:
词对的挖掘,假如你有网页去重技术(主要是消除转载),那么一旦两个人的名字在K个网页中同时出现,那么就认为认识,小于K就认为不认识。
或者对某些网站进行加权,例如一些新闻报道网,都是人工编辑的,可信度较高。