自各儿动手写搜索引擎（常搜吧历程三#分词#）（Java、Lucene、hadoop）

2013-03-19

自己动手写搜索引擎（常搜吧历程三#分词#）（Java、Lucene、hadoop）分词的基本原理：1、分词是用来对文本按语言特

自己动手写搜索引擎（常搜吧历程三#分词#）（Java、Lucene、hadoop）

分词的基本原理：

1、分词是用来对文本按语言特征按算法进行过滤、分组处理的一种技术。

2、分词的对象是文本，而不是图像动画脚本等等。

3、分词的方式就是过滤和分组。

4、过滤主要把文本中那些没有实际意义的字或词过滤掉。

5、分组就是按照”分词数据库“内已添加好的词，进行匹配。

下面来看Lucene分词器的使用

庖丁解牛，我国古代成语，出自《庄子》，比喻经过反复实践，掌握了事物的客观规律，做事得心应手，运用自如。
下载网址链接：http://code.google.com/p/paoding/
解压后我们需要对项目添加2个jar包，解压目录下的paoding-analysis.jar 和lib下的 commons-logging.jar 。令把dic文件夹复制到我们的项目src目录下。
package com.qianyan.analyzer;import java.io.IOException;import java.io.StringReader;import net.paoding.analysis.analyzer.PaodingAnalyzer;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.Token;import org.apache.lucene.analysis.TokenStream;public class TestPaodingAnalyzer {public static void main(String[] args) throws IOException {Analyzer analyzer = new PaodingAnalyzer();String input = "我爱北京天安门！";TokenStream ts = analyzer.tokenStream("", new StringReader(input));Token token = new Token();while(null != (token = ts.next(null)))System.out.println(token.term());}}

大家通过这个例子可以看到，padoding分词器相当的强大，在此我们也不过多介绍，有兴趣的朋友可以看解压后的中文操作手册。

热点排行

网络基础

自各儿动手写搜索引擎（常搜吧历程三#分词#）（Java、Lucene、hadoop）