基于Spindle的加强HTTP Spider

2012-10-13

基于Spindle的增强HTTP Spider?zz:http://www.iteye.com/news/1731构建于lucene之上的可用的Java开源Spide

基于Spindle的增强HTTP Spider

zz:http://www.iteye.com/news/1731

构建于lucene之上的可用的Java开源Spider少之又少,spindle长期没有更新且功能不够完善,故而自己参考其源
代码重新编写了一个可扩展的WebCrawler,本着开源共享,共同进步的想法发布于此,期冀得到大家的批评指正,
有任何意见及建议均可Email联系我基于Spindle的加强HTTP Spider (kaninebruno@hotmail.com)
?? 以下代码基于lucene-2.3.1,htmlparser-1.6,je-analysis-1.5.3,以及自己修改过的cpdetector-1.0.5;
下载地址分别为
htmlparser：http://sourceforge.net/project/showfiles.php?group_id=24399
je-analysis：http://www.jesoft.cn/je-analysis-1.5.3.jar
lucene就不用说了,cpdetector-1.0.5见附件.
spindle的官方站点：http://www.bitmechanic.com/projects/spindle/

Java代码

热点排行

软件架构设计

基于Spindle的加强HTTP Spider