首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网络技术 > 网络基础 >

施用Lucene开发自己的搜索引擎–(2)配置环境和索引文件的建立indexer

2013-02-19 
使用Lucene开发自己的搜索引擎–(2)配置环境和索引文件的建立indexer文章来源:http://www.wenbanana.com/?p

使用Lucene开发自己的搜索引擎–(2)配置环境和索引文件的建立indexer

文章来源:http://www.wenbanana.com/?p=708

一、Lucene安装包下载

由于我是根据《Lucene In Action》第二版这本书来学习Lucene的,书中使用的是3.x版本的Lucene安装包作为教学资料,于是我下载了lucene-3.6.2版本的。大家最好还是使用3.x版本的,不同版本之间会存在一些差异,可能在编程是会造成一些不必要的错误。我下载的是lucene-3.6.2.zip。

下面我给出官方下载地址:http://www.apache.org/dyn/closer.cgi/lucene/java/3.6.2

 

2.lucene-core-3.6.2.jar的使用

下载完后,大家只要解压到某一个磁盘上即可。下面我们就可以开始编写代码了。搜索引擎可以归结为三步骤:一、网页抓取   二、建立索引     三、服务用户。本来第一步应该是先去抓取网页,但是我们这次主要讲的是搜索信息,也就是说重点是文献的检索,那么重点就在搜索而不是网页抓取。在这之前,我们要创建一个索引程序Indexer来建立索引文件,方便引擎可以搜索。

 

3.创建Indexer程序

step1:设置CLASSPATH路径,将lucene-core-3.6.2.jar添加到CLASSPATH下或者可以再Java 工程,右键属性下添加                  这个jar包也可以。我采用的是后一种方法。

施用Lucene开发自己的搜索引擎–(2)配置环境和索引文件的建立indexer

step2:创建LuceneInAction  Java工程,工程目录如下:

施用Lucene开发自己的搜索引擎–(2)配置环境和索引文件的建立indexer

 

step3:在写代码之前,我们要先创建两个文件夹,一个是index文件夹,用来保存索引文件;

一个是data文件夹,用来保存数据文件(如txt文件)。文件夹的位置可以随意创建,这里,我创建在解压的安装目录下。分别是:"E:\\lucene-3.6.2\\index"和"E:\\lucene-3.6.2\\data"。

施用Lucene开发自己的搜索引擎–(2)配置环境和索引文件的建立indexer

 

接下来还要在data文件夹下创建几个txt文件用来创建索引,内容要用英文,因为我们还没有添加中分分词解析的功能,目前只能针对英文。

施用Lucene开发自己的搜索引擎–(2)配置环境和索引文件的建立indexer

step4:接下来就可以编写代码了:

Indexing E:\lucene-3.6.2\data\1.txt
Indexing E:\lucene-3.6.2\data\2.txt
Indexing E:\lucene-3.6.2\data\3.txt
Indexing E:\lucene-3.6.2\data\4.txt
索引 4 文件花费 259ms

在index文件夹下,还会多出很多文件。这就表明索引成功建立了。大家或许会对上面的一些代码抱有疑惑、不解,别急,我会在之后来一一讲解这些类,现在大家有个了解即可。

热点排行