紧急sos:垂直搜索引擎建立~
本人因接到一个垂直搜索引擎的项目,刚刚开始研究nutch,目前已经简单抓取了单站数据,但是对多站抓取无能为力,而且对于开发的流程一无所知,请各位好心的朋友帮忙回答下,或给些文档参考,在此谢过了~~~问题如下:
1.nutch如何才能抓取多站的数据?还是说是单个单个站抓取后合并在一起?
2.如果想实现后台动态管理和设定时间抓取,是不是要修改源文件?
3.网上总说分词分词的,那个东西有什么用?
4.垂直搜索引擎的技术开发流程什么样子?是不是抓取-然后分词-然后是什么什么~~~
拜托会的各位帮帮忙吧,如果可以请加我qq:41981172~~~~(ps:分稍微少点,抱歉了)
[解决办法]
我全部蜘蛛框架是自己全文检索部分是 Lucene.Net
[解决办法]
[解决办法]
当然不能缺少分词,摘要,高亮等等,还可以根据需要改变分值排序。