首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网络技术 > 网络基础 >

想做搜索引擎方面的论文,不知道有哪几条路可以走,请高手赐教~该怎么处理

2012-04-10 
想做搜索引擎方面的论文,不知道有哪几条路可以走,请高手赐教~以前准备走个性化搜索但是查阅很多资料后发现

想做搜索引擎方面的论文,不知道有哪几条路可以走,请高手赐教~
以前准备走 个性化搜索 但是查阅很多资料后发现 很虚 都没有说 是怎么实现的 
所以想走一条可以做点事情的路

[解决办法]

想做搜索引擎方面的研究,首先得考虑搜索引擎的几个组成部分和各个研究技术难点。

1)网页搜集(crawler技术):目前主要是浅层Crawl,也就是搜集静态网页,但是internet上很多动态网页还未能大规模搜集,即深层Crawl技术还不够,这可以是一个研究方向。

2)网页预处理:针对收集的网页,必须进行充分的预处理才能保证系统消耗尽可能小和搜索质量尽可能高。比如网页消重,也就是消除内容相似的网页,虽然这样的研究和技术早已进行,但是实际效果还不尽如人意,大家搜索时经常会得到大量(一点都不夸张)的内容重复的网页,不管是baidu, 还是google,都会经常出现这种现象。这就是网页消重做得不够。研究网页消重,除了效果(effect)之外,还有一点是非常重要的,那就是效率(efficiency),因为对于搜索引擎,面对的是海量数据(亿数量级的网页数量),所以设计的算法性能要非常的高效,否则再精准的方法也不能运用到实际应用中。

另外,预处理阶段,还有一个重点——建立索引,这就用到信息检索(information retrieval)方面的知识和技术。目前索引的技术已基本成熟,毕竟信息检索的研究历史已有几十年了。

3)搜索服务:不言而喻,这一部分就是返回与用户查询相关度最高的文档(网页)。该部分基本属于信息检索的研究范畴,比如信息检索模型(信息检索的核心)。研究重点可放在结果排序上,还有结果摘要上。

4)结果评估:这一部分虽然用户看不到,但是对于搜索引擎的质量研究来说,这是一个非常重要的研究。光这一点就可以做一个博士论文(见北大彭波的博士论文《搜索引擎检索系统的效率优化与效果评估研究》)。


以上只是关于搜索引擎的一些基本问题。总之,搜索引擎要做的工作还很多,很多。但是千里之行,始于足下,问题要一个一个的解决,研究要一点一点的进行。

以上完全是我个人的一孔之见,仅供参考。

热点排行