搜索引擎:第一章布尔查询学习笔记
第一章布尔查询学习笔记
倒排序记录
提取词 文档ID 对词排序 去重
New 1 Forcasts Forcasts
Home 1 Home Home
Sales 1 In In
Top 1 July July
Rise 1 New New
Forcasts 2 Rise Rise
Sales 2 Sales Sales
In 2 Sales
July 2
对词的排序时根据字母的顺序完成的。
布尔查询
Word / DocNum 1 2 3 4
Think 1 0 0 0
Thank 1 1 0 1
For 0 1 0 1
Approach 1 0 1 0
其中,前前页存在为1,0为不存在。
如果要找 Think and For,则只需要用1000 and 0101 =》 0000,整个文档没有同时此种存在的情况。
一些概念评价搜索的概念
正确率:返回的结果中真正和信息需求相关的文档所在百分比。
召回率:所有和信息需求真正相关的文档中被检索系统返回的百分比。
一个词条:在文档中出现的字符序列的一个实例。
一个词条:相同词条构成的集合。
词干还原:一个很粗略的去除单词两端词缀的启发式过程,并希望大部分时间它都能达到这个正确目的,这个过程也常常包括去除派送词缀。
词形归并:利用词汇表和词形分析来去除曲折词缀,从而返回词的原形或词典中的词的过程,返回的结果称为词源。
跳表:在链式结构中,设置跳表,可以快速的找到要插入的位置。
目的:可以快速的对数据进行合并。
跳表指针只对and类型的查询有用,而对or类型的查询不起作用。(对于复杂查询产生的中间结果调用hasskip(p)函数则永远返回false)。
跳表的位置一般为P的开方。