nutch集群,威力很大,哈哈!!
今天用公司的服务器测试了一把nutch集群很好很强大!
之前也测试过,估计和网络的带宽有关系吧,效果不是很好,今天测试了一下,确实比单机的速度要快很多!
我测试的是用3台虚拟机
每台是8核心cpu 一个6g内存2个4g内存
然后爬的网址是180个,深度4层,开启线程200,完成时间是2个多小时,而且资源占用率也就达到20%
?
之前用8核心6g内存单机爬取 180个网址,深度4层 开启线程50个,爬取1星期没有爬取完,资源占用cpu全部100%,内存占用800M左右
?
所以集群的威力还是很大的,这么一看就可以看出来威力了,所以我打算把这3台再拆成6台,让服务器能够把资源利用到最大,下面要好好研究一下hadoop的存储结构和nutch的具体内容和lucene这块了!
?
下面是我截的图,用集群完成的开始和结束时间,还有搜索了一个关键词的搜索数量,现在研究一下如何用luke去查看
hdfs,所有的数量应该在这个查询数量之上。
?
?
?
?
?
图3 查询结果
?
1 楼 erliang20088 2011-10-08 你好,我想问一下,我也搭建了nutch集群环境,可是不知怎么地,集群的爬取数据的速度确是比单机慢个十倍左右,整了一天多了,依然还是那么慢,很费解,敬请帮忙,~ 2 楼 saiyaren 2011-10-09 erliang20088 写道你好,我想问一下,我也搭建了nutch集群环境,可是不知怎么地,集群的爬取数据的速度确是比单机慢个十倍左右,整了一天多了,依然还是那么慢,很费解,敬请帮忙,~