java开发基于主题搜索的算法,该怎么处理

2012-04-01

java开发基于主题搜索的算法我是个新手，想开发一个java程序编写的基于主题的搜索算法。主要功能有:1．选取2～

java开发基于主题搜索的算法
我是个新手，想开发一个java程序编写的基于主题的搜索算法。主要功能有:
1．选取2～6个种子站点，锁定某个主题搜集高质量网页，如教育新闻、信息检索课程、旅游信息、就业招聘信息等。
2．实现crawler的基本功能要求：
（1）遵守采集礼貌规则：须分析robots.txt文件和meta tag有无限制；一个线程抓完一个网页后要sleep 1～2秒钟；
（2）能对HTML网页进行解析，提取出主题相关的链接URL，能判别提取的URL是否已处理过，不重复解析已搜集过的网页；
（3）能够对crawler程序的一些基本参数进行设置，包括：抓取深度(depth)、种子URL等；
（4）使用User-agent向服务器表明自己的身份；
（5）对搜集过程进行日志记录，为采集过程的统计分析打下基础；
（6）采用多线程并行编程技术，提高搜集速度。但抓取某一URL时最多允许建立2个连接（本地作网页解析的线程数则不限）
3．实现主题crawler，设计网页主题相关度的判断方法；优先搜集主题相关的链接，尽量不下载主题不相关的网页。
4．设计评测实验，定义评测指标，实现对搜集网页质量和相关度的评估。
5．GUI图形用户界面、Web界面，通过界面管理crawler，包括启停、URL增删等.

不知道刚开始这样的研究应该看些什么书籍或者资料呢？希望大家可以帮忙，给出一些具体的方法，或者给出一些链接资料也可以，先谢过大家了。

[解决办法]
做爬虫, 有一本书叫Java机器人编程? 忘了名称, 关键词java 和机器人

LZ想法很不错, 分析得挺好
[解决办法]
网页爬虫网上很多的，但是都不是很全面。网页相似度的计算量也是很惊人的，最好能有兼顾性能和精确性的算法，不然多线程只会成为一种负担。
[解决办法]
机器人使用Jakarta HTTPclient
搜索引擎可以使用Apache Solr
[解决办法]

探讨
机器人使用Jakarta HTTPclient
搜索引擎可以使用Apache Solr

热点排行

Eclipse开发

java开发基于主题搜索的算法,该怎么处理