lucene好文收藏
?
很不错的笔记,有空再看。引用了很多优秀资料链接。
http://www.chedong.com/tech/lucene.html
原理剖析
http://www.lucene.com.cn/about.htm
牛人笔记,详细解析了lucene索引创建过程和搜索解析过程、结果集相关度排序算法
http://blog.csdn.net/forfuture1978/archive/2010/06/13/5668956.aspx
按字段排序基本分析
http://zhousen.zju.blog.163.com/blog/static/1802920086156357280/
lucene索引机制,根据文档数量和内存大小调整合并因子,可以帮助提高性能。
索引系统的几个重要文件说明
http://www.ibm.com/developerworks/cn/java/wa-lucene/
?http://www.lucene.com.cn/about.htm?
http://download.csdn.net/detail/thundersssss/858994
http://forfuture1978.javaeye.com?
http://lucene.sourceforge.net/talks/pisa/?
?
介绍?http://www.sphinxsearch.com/
?牛逼的跳跃表数据结构
分层,每层都排好序,上层链表比下层链表稀疏。查找从最顶层开始找,当前元素右邻元素大于查找值,往下层移动;当前元素右邻元素小于查找值则往右移动,执行此循环不变式直至找到元素(如果到最底层还未找到,则查找失败)
?lucene实现搜索的基本流程:源文档-》分词组件分词-》建立词典,给词典排序,建立倒排表,存储。
搜索查询对象-》词法分析-》构建词法数-》读取索引文件倒排表-》进行交并差操作-》根据向量空间模型进行相关性排序 文档权重=词频*(log2(文档总数/文档频次))? 英文版为W(t,d)=(1+logTF(t,d))*(log(N/DF(t)))貌似更加靠谱-》返回结果
l