Solr的自动完成/自动补给实现及经验

2013-11-08

Solr的自动完成/自动补充实现及经验转自：http://hankesi2000.iteye.com/Solr的自动完成/自动补充实现介绍(

Solr的自动完成/自动补充实现及经验
转自：http://hankesi2000.iteye.com/Solr的自动完成/自动补充实现介绍(第一部分)博客分类：

索引

<field?name="id"?type="string"?indexed="true"?stored="true"?multiValued="false"?required="true"/>??
<field?name="name"?type="text"?indexed="true"?stored="true"?multiValued="false"?/>??
<field?name="description"?type="text"?indexed="true"?stored="true"?multiValued="false"?/>??

<fieldType?name="text"?class="solr.TextField"?positionIncrementGap="100">??
<analyzer>??
<tokenizer?class="solr.WhitespaceTokenizerFactory"/>??
<filter?class="solr.WordDelimiterFilterFactory"?generateWordParts="1"?generateNumberParts="1"?catenateWords="1"?catenateNumbers="1"?catenateAll="0"?splitOnCaseChange="1"/>??
<filter?class="solr.LowerCaseFilterFactory"/>??
</analyzer>??
</fieldType>??

配置

单词提示

全名提示

<fieldType?name="text_auto"?class="solr.TextField">??
<analyzer>??
<tokenizer?class="solr.KeywordTokenizerFactory"/>??
<filter?class="solr.LowerCaseFilterFactory"/>??
</analyzer>??
</fieldType>??

如何使用

<response>??
<lst?name="responseHeader">??
<int?name="status">0</int>??
<int?name="QTime">0</int>??
</lst>??
<result?name="response"?numFound="4"?start="0"/>??
<lst?name="facet_counts">??
<lst?name="facet_queries"/>??
<lst?name="facet_fields">??
<lst?name="name_auto">??
<int?name="hard?disk">1</int>??
<int?name="hard?disk?samsung">1</int>??
<int?name="hard?disk?seagate">1</int>??
<int?name="hard?disk?toshiba">1</int>??
</lst>??
</lst>??
<lst?name="facet_dates"/></lst>??
</response>??

扩展功能

结尾

博客分类：

配置

<searchComponent?name="suggest"?class="solr.SpellCheckComponent">??
??<lst?name="spellchecker">??
????<str?name="name">suggest</str>??
????<str?name="classname">org.apache.solr.spelling.suggest.Suggester</str>??
????<str?name="lookupImpl">org.apache.solr.spelling.suggest.tst.TSTLookup</str>??
????<str?name="field">name_autocomplete</str>??
??</lst>??
</searchComponent>??

solr.SpellCheckComponent

name

lookupImpl

field

<requestHandler?name="/suggest"?class="org.apache.solr.handler.component.SearchHandler">??
??<lst?name="defaults">??
????<str?name="spellcheck">true</str>??
????<str?name="spellcheck.dictionary">suggest</str>??
????<str?name="spellcheck.count">10</str>??
??</lst>??
??<arr?name="components">??
????<str>suggest</str>??
??</arr>??
</requestHandler>??

索引

<field?name="id"?type="string"?indexed="true"?stored="true"?multiValued="false"?required="true"/>??
<field?name="name"?type="text"?indexed="true"?stored="true"?multiValued="false"?/>??
<field?name="name_autocomplete"?type="text_auto"?indexed="true"?stored="true"?multiValued="false"?/>??
<field?name="description"?type="text"?indexed="true"?stored="true"?multiValued="false"?/>??

<copyField?source="name"?dest="name_autocomplete"?/>??

单词建议

<fieldType?class="solr.TextField"?name="text_auto"?positionIncrementGap="100">??
??<analyzer>??
????<tokenizer?class="solr.WhitespaceTokenizerFactory"/>??
????<filter?class="solr.WordDelimiterFilterFactory"?generateWordParts="1"?generateNumberParts="1"?catenateWords="1"?catenateNumbers="1"?catenateAll="0"?splitOnCaseChange="1"/>??
????<filter?class="solr.LowerCaseFilterFactory"/>??
???</analyzer>??
</fieldType>??

词组建议

<fieldType?class="solr.TextField"?name="text_auto">??
??<analyzer>??
????<tokenizer?class="solr.KeywordTokenizerFactory"/>??
????<filter?class="solr.LowerCaseFilterFactory"/>??
??</analyzer>??
</fieldType>??

建立词典

/suggest?spellcheck.build=true??

查询

/suggest?q=har??

<?xml?version="1.0"?encoding="UTF-8"?>??
<response>??
??<lst?name="responseHeader">??
????<int?name="status">0</int>??
????<int?name="QTime">0</int>??
??</lst>??
??<lst?name="spellcheck">??
????<lst?name="suggestions">??
??????<lst?name="dys">??
????????<int?name="numFound">4</int>??
????????<int?name="startOffset">0</int>??
????????<int?name="endOffset">3</int>??
????????<arr?name="suggestion">??
???????????<str>hard?drive</str>??
???????????<str>hard?drive?samsung</str>??
???????????<str>hard?drive?seagate</str>??
???????????<str>hard?drive?toshiba</str>??
????????</arr>??
??????</lst>??
????</lst>??
??</lst>??
</response>??

结尾

博客分类：

组件配置

<str?name="sourceLocation">dict.txt</str>??

<searchComponent?name="suggest"?class="solr.SpellCheckComponent">???
<lst?name="spellchecker">???
<str?name="name">suggest</str>???
<str?name="classname">org.apache.solr.spelling.suggest.Suggester</str>????
<str?name="lookupImpl">org.apache.solr.spelling.suggest.tst.TSTLookup</str>???
<str?name="field">name_autocomplete</str>???
<str?name="sourceLocation">dict.txt</str>???
</lst>???
</searchComponent>??

handler配置

<str?name="spellcheck.onlyMorePopular">true</str>??

<requestHandler?name="/suggest"?class="org.apache.solr.handler.component.SearchComponent">???
<lst?name="defaults">???
<str?name="spellcheck">true</str>???
<str?name="spellcheck.dictionary">suggest</str>????
<str?name="spellcheck.count">10</str>???
<str?name="spellcheck.onlyMorePopular">true</str>???
</lst>???
<arr?name="components">???
<str>suggest</str>???
</arr>???
</requestHandler>??

Dictionary

<?xml?version="1.0"?encoding="UTF-8"?>???
<response>???
<lst?name="responseHeader">????
<int?name="status">0</int>????
<int?name="QTime">0</int>???
</lst>???
<lst?name="spellcheck">???
<lst?name="suggestions">???
<lst?name="Dys">??????
<int?name="numFound">3</int>?????
<int?name="startOffset">0</int>??????
<int?name="endOffset">3</int>???????
<arr?name="suggestion">???????
<str>Hard?disk?jjdd</str>?????
<str>Hard?disk?wd</str>???
<str>Hard?disk?hitachi</str>?????
</arr>????
</lst>???
</lst>???
</lst>???
</response>??

结束语

对Schema设计的考虑

存储域

SOLR配置考虑

mergeFactor

mergeFactor Tradeoffs

HashDocSet最大值的考虑

cache中autoWarm数量的考虑

缓存命中率

对排序的域作明确的预热

优化的考虑

更新和提交的频率

查询响应的压缩

索引的性能

内存使用的考虑

OutOfMemoryErrors

SEVERE:?Exception?during?commit/optimize:java.io.IOException:?Lock?obtain?timed?out:?SimpleFSLock@/tmp/lucene-5d12dd782520964674beb001c4877b36-write.lock??

JVM内存的分配

java?-Xms512M?-Xmx1024M?-jar?start.jar??

影响内存使用的因素

下一步

热点排行

开源软件

Solr的自动完成/自动补给实现及经验