关于“nutch与lucene构建网络搜索引擎”的一些问题
各位大侠,毕业设计老师给我出了这个题,我接都没接触过搜索引擎,这个程序应该怎么着手啊?
看了一些网上关于这个的话题还是摸不着头脑
多谢各位IT高手来指点,感激涕零! 多谢多谢!
[解决办法]
搜索引擎,包括爬虫、分词、全文索引、检索四个部分,
Nutch和Lucene
Nutch是基于Lucene的。Lucene为Nutch提供了文本索引和搜索的API。
一个常见的问题是:我应该使用Lucene还是Nutch?
最简单的回答是:如果你不需要抓取数据的话,应该使用Lucene。
常见的应用场合是:你有数据源,需要为这些数据提供一个搜索页面。在这种情况下,最好的方式是直接从数据库中取出数据并用Lucene API 建立索引。
在你没有本地数据源,或者数据源非常分散的情况下,应该使用Nutch。
所以说,Nutch自身主要功能提供了一个爬虫器,lucene实现后面的部分。lucene是一个单独的开源项目,但它只提供全文索引、检索(查询)功能,如果需要抓取数据,那就得要爬虫,这样才能组成一个完整的搜索引擎。因此Nutch可以解释为基于lucene的搜索引擎,而基于lucene的搜索引擎,有很多,Nutch只是其中之一,其他的还有Solr等,各有特点,自己baidu,一大堆的。
[解决办法]