lucene内置分词器(一)
1、WhilespaceAnalyzer
顾名思义,该分词器会根据空格对文字进行拆分。
2、SimpleAnalyzer
首先根据非字母字符进行拆分内容,然后把词汇单元变成小写,并且去掉数字词汇。
3、StopAnalyzer
和上面的SimpleAnalyzer差不多,但是会去掉一些常用的词汇(the、a等),停用词可以定制。
4、StandardAnalyzer
核心分词器,包含大量的逻辑,能识别大部分的公司名或邮件、主机地址等词汇、其他功能类似StopAnalyzer和SimpleAnalyzer。去除标点符号。