首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > JAVA > Eclipse开发 >

java开发基于主题搜索的算法,该怎么处理

2012-04-01 
java开发基于主题搜索的算法我是个新手,想开发一个java程序编写的基于主题的搜索算法。主要功能有:1.选取2~

java开发基于主题搜索的算法
我是个新手,想开发一个java程序编写的基于主题的搜索算法。主要功能有:
1.选取2~6个种子站点,锁定某个主题搜集高质量网页,如教育新闻、信息检索课程、旅游信息、就业招聘信息等。
2.实现crawler的基本功能要求:
(1)遵守采集礼貌规则:须分析robots.txt文件和meta tag有无限制;一个线程抓完一个网页后要sleep 1~2秒钟;
(2)能对HTML网页进行解析,提取出主题相关的链接URL,能判别提取的URL是否已处理过,不重复解析已搜集过的网页;
(3)能够对crawler程序的一些基本参数进行设置,包括:抓取深度(depth)、种子URL等;
(4)使用User-agent向服务器表明自己的身份;
(5)对搜集过程进行日志记录,为采集过程的统计分析打下基础;
(6)采用多线程并行编程技术,提高搜集速度。但抓取某一URL时最多允许建立2个连接(本地作网页解析的线程数则不限)
3.实现主题crawler,设计网页主题相关度的判断方法;优先搜集主题相关的链接,尽量不下载主题不相关的网页。
4.设计评测实验,定义评测指标,实现对搜集网页质量和相关度的评估。
5.GUI图形用户界面、Web界面,通过界面管理crawler,包括启停、URL增删等.

不知道刚开始这样的研究应该看些什么书籍或者资料呢?希望大家可以帮忙,给出一些具体的方法,或者给出一些链接资料也可以,先谢过大家了。


[解决办法]
做爬虫, 有一本书叫Java机器人编程? 忘了名称, 关键词java 和 机器人

LZ想法很不错, 分析得挺好
[解决办法]
网页爬虫网上很多的,但是都不是很全面。网页相似度的计算量也是很惊人的,最好能有兼顾性能和精确性的算法,不然多线程只会成为一种负担。
[解决办法]
机器人使用Jakarta HTTPclient
搜索引擎可以使用Apache Solr
[解决办法]

探讨
机器人使用Jakarta HTTPclient
搜索引擎可以使用Apache Solr

热点排行