首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网络技术 > 网络基础 >

关于“nutch与lucene构建网络搜索引擎”的一些有关问题

2012-02-10 
关于“nutch与lucene构建网络搜索引擎”的一些问题各位大侠,毕业设计老师给我出了这个题,我接都没接触过搜索

关于“nutch与lucene构建网络搜索引擎”的一些问题
各位大侠,毕业设计老师给我出了这个题,我接都没接触过搜索引擎,这个程序应该怎么着手啊?
看了一些网上关于这个的话题还是摸不着头脑
多谢各位IT高手来指点,感激涕零! 多谢多谢!

[解决办法]
搜索引擎,包括爬虫、分词、全文索引、检索四个部分,
Nutch和Lucene
  Nutch是基于Lucene的。Lucene为Nutch提供了文本索引和搜索的API。
  一个常见的问题是:我应该使用Lucene还是Nutch?
  最简单的回答是:如果你不需要抓取数据的话,应该使用Lucene。
  常见的应用场合是:你有数据源,需要为这些数据提供一个搜索页面。在这种情况下,最好的方式是直接从数据库中取出数据并用Lucene API 建立索引。
  在你没有本地数据源,或者数据源非常分散的情况下,应该使用Nutch。

所以说,Nutch自身主要功能提供了一个爬虫器,lucene实现后面的部分。lucene是一个单独的开源项目,但它只提供全文索引、检索(查询)功能,如果需要抓取数据,那就得要爬虫,这样才能组成一个完整的搜索引擎。因此Nutch可以解释为基于lucene的搜索引擎,而基于lucene的搜索引擎,有很多,Nutch只是其中之一,其他的还有Solr等,各有特点,自己baidu,一大堆的。
[解决办法]

探讨

搜索引擎,包括爬虫、分词、全文索引、检索四个部分,
Nutch和Lucene
Nutch是基于Lucene的。Lucene为Nutch提供了文本索引和搜索的API。
一个常见的问题是:我应该使用Lucene还是Nutch?
最简单的回答是:如果你不需要抓取数据的话,应该使用Lucene。
常见的应用场合是:你有数据源,需要为这些数据提供一个搜索页面。在这种情况下,最好的方式是直接从数据……

热点排行