首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网络技术 > 网络基础 >

搜索引擎:第一章布尔查询学习札记

2013-04-09 
搜索引擎:第一章布尔查询学习笔记第一章布尔查询学习笔记 倒排序记录 提取词文档ID对词排序去重New1Forcas

搜索引擎:第一章布尔查询学习笔记

第一章布尔查询学习笔记

 

倒排序记录

 

提取词              文档ID             对词排序                   去重

New                   1                          Forcasts                     Forcasts

Home                 1                          Home                          Home

Sales                  1                          In                                  In

Top                     1                          July                              July

Rise                    1                          New                             New

Forcasts            2                          Rise                             Rise

Sales                  2                          Sales                            Sales

In                        2                          Sales

July                     2

 

对词的排序时根据字母的顺序完成的。

 

布尔查询

Word / DocNum                 1                2                3                4

Think                                     1                0                0                0

Thank                                   1                1                0                1

For                                         0                1                0                1

Approach                             1                0                1                0

其中,前前页存在为1,0为不存在。

如果要找 Think and For,则只需要用1000 and 0101 =》 0000,整个文档没有同时此种存在的情况。

 

一些概念评价搜索的概念

正确率:返回的结果中真正和信息需求相关的文档所在百分比。

召回率:所有和信息需求真正相关的文档中被检索系统返回的百分比。

 

一个词条:在文档中出现的字符序列的一个实例。

一个词条:相同词条构成的集合。

 

词干还原:一个很粗略的去除单词两端词缀的启发式过程,并希望大部分时间它都能达到这个正确目的,这个过程也常常包括去除派送词缀。

 

词形归并:利用词汇表和词形分析来去除曲折词缀,从而返回词的原形或词典中的词的过程,返回的结果称为词源。

 

跳表:在链式结构中,设置跳表,可以快速的找到要插入的位置。

   搜索引擎:第一章布尔查询学习札记

 

 


目的:可以快速的对数据进行合并。

跳表指针只对and类型的查询有用,而对or类型的查询不起作用。(对于复杂查询产生的中间结果调用hasskip(p)函数则永远返回false)。

跳表的位置一般为P的开方。

热点排行