首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 软件管理 > 软件架构设计 >

solr 的分析器,分词器跟分词过滤器(1)

2012-11-07 
solr 的分析器,分词器和分词过滤器(1)【本文基于对此英文网页的理解http://wiki.apache.org/solr/Analyzers

solr 的分析器,分词器和分词过滤器(1)

【本文基于对此英文网页的理解http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters】

?

?概览

??? 当对一个文档(document是一系列field的集合)进行索引时,其中的每个field(document和file都是lucene中的概念)中的数据都会经历分析,分词和多步的分词过滤等操作。这一系列的动作是什么呢?直观的理解是,将一句话分成单个的单词,去掉句子当中的空白符号,去掉多余的词,进行同义词代换等等。

? 【例】what a beautiful day? 会进行什么处理呢?what ,a 以及问号都将被去掉,最后处理结果为beautiful和day(也有可能是beautiful day)。

? 不仅仅是在索引的时候进行这些工作,查询的时候也要做这些工作,而且通常索引和查询使用同样的方法来进行处理。这样做的目的是为了保证索引与查询的正确匹配。下例说明了采取不同的处理时的不匹配情况。

? 【例】ABCD索引分词为AB? CD,查询时候分词为ABC? D,显然查询的匹配结果为0。

?

词性转换

? 一种是将一个词扩展成它的多种形式,例如将run扩展成runs,running。另外一种是词性规约,例如将runns,running等都“收缩”成run。前者只需要在索引或查询的任意一端采用即可,后者需要在两端同时采用。

?

分析器(Analyzer)

? 分析器是包括连个部分:分词器和过滤器。分词器顾名思意就是将句子分词单个的词,过滤器就是对分词的结果进行筛选,例如中文中将“的”“呀”这些对句子主体意思影响不大的词删除。英语中类似的就是"is","a"等等。通常在索引和分词两端应该采用同样的分词器。solr自带了一些分词器,如果你需要使用自己公司的分词器,那么就需要修改solr模式(Solr schema)。

??? schema.xml 文件允许两种方式修改文本被分析的方式,通常只有field类型为 solr.TextField 的field的内容允许定制分析器。

??? 方法一:使用任何 org.apache.lucene.analysis.Analyzer的子类进行设定。

1. ?fieldtype name="nametext" style="">2. ??<analyzer style="">3. </fieldtype>

????方法二:指定一个TokenizerFactory ,后面跟一系列的TokenFilterFactories(它们将按照所列的顺序发生作用),Factories被用来创建分词器和分词过滤器,它们用于对分词器和分词过滤器的准备配置,这样做的目的是为了避免the overhead of creation via reflection。

??

1. <fieldtype name="text" style="">2. ??<analyzer>

3. ????<tokenizer style="">4. ????<filter style="">5. ????<filter style="">6. ????<filter style="">7. ????<filter style="">8. ??</analyzer>

9. </fieldtype>

? 需要说明的一点是,Any Analyzer, TokenizerFactory, or TokenFilterFactory 应该用带包名的全类名进行指定,请确保它们位于Solr的classpath 路径下。对于 org.apache.solr.analysis.* 包下的类,仅仅通过solr.*就可以进行指定。

?? 如果你需要使用自己的分词器和过滤器,你就需要自己写一个 factory ,它必须是 BaseTokenizerFactory 或BaseTokenFilterFactory的子类。就像下面一样。

? public class MyCustomFilterFactory extends BaseTokenFilterFactory {

? public TokenStream create(TokenStream input) {

??? return new MyCustomFilter(input);

? }

}

?

?

?

Solr提供了哪些TokenizerFactories?

--------------------------------

1.? solr.LetterTokenizerFactory

?? 创建org.apache.lucene.analysis.LetterTokenizer.

?? 分词举例:

?? "I?can't"?==>?"I",?"can",?"t"

2.? solr.WhitespaceTokenizerFactory

?? 创建org.apache.lucene.analysis.WhitespaceTokenizer

3.? solr.LowerCaseTokenizerFactory

?? 创建org.apache.lucene.analysis.LowerCaseTokenizer

?? 分词举例:

? "I?can't"?==>?"i",?"can",?"t"

4.? solr.StandardTokenizerFactory

?? 创建org.apache.lucene.analysis.standard.StandardTokenizer

?? 分词举例:? "I.B.M.?cat's?can't"?==>?

ACRONYM:?"I.B.M.",?APOSTROPHE:"cat's",?APOSTROPHE:"can't"

?? 说明:该分词器,会自动地给每个分词添加type,以便接下来的对type敏感的过滤器进行处理,目前仅仅只有StandardFilter对Token的类型是敏感的。

声明:原创文章,严禁转载。