首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 其他教程 > 互联网 >

nutch集群,威力很大,哈哈哈!

2012-07-01 
nutch集群,威力很大,哈哈!!今天用公司的服务器测试了一把nutch集群很好很强大!之前也测试过,估计和网络的

nutch集群,威力很大,哈哈!!

今天用公司的服务器测试了一把nutch集群很好很强大!

之前也测试过,估计和网络的带宽有关系吧,效果不是很好,今天测试了一下,确实比单机的速度要快很多!

我测试的是用3台虚拟机

每台是8核心cpu 一个6g内存2个4g内存

然后爬的网址是180个,深度4层,开启线程200,完成时间是2个多小时,而且资源占用率也就达到20%

?

之前用8核心6g内存单机爬取 180个网址,深度4层 开启线程50个,爬取1星期没有爬取完,资源占用cpu全部100%,内存占用800M左右

?

所以集群的威力还是很大的,这么一看就可以看出来威力了,所以我打算把这3台再拆成6台,让服务器能够把资源利用到最大,下面要好好研究一下hadoop的存储结构和nutch的具体内容和lucene这块了!

?

下面是我截的图,用集群完成的开始和结束时间,还有搜索了一个关键词的搜索数量,现在研究一下如何用luke去查看

hdfs,所有的数量应该在这个查询数量之上。

?

?

?

?

nutch集群,威力很大,哈哈哈!

nutch集群,威力很大,哈哈哈!

?

图3 查询结果

nutch集群,威力很大,哈哈哈!

?

1 楼 erliang20088 2011-10-08   你好,我想问一下,我也搭建了nutch集群环境,可是不知怎么地,集群的爬取数据的速度确是比单机慢个十倍左右,整了一天多了,依然还是那么慢,很费解,敬请帮忙,~ 2 楼 saiyaren 2011-10-09   erliang20088 写道你好,我想问一下,我也搭建了nutch集群环境,可是不知怎么地,集群的爬取数据的速度确是比单机慢个十倍左右,整了一天多了,依然还是那么慢,很费解,敬请帮忙,~
你需要去调一些配置,把你的nutch-site.xml中的对于单站的爬取线程和其他的参数往上调调,还有就是增加机器数量,我现在再改代码利用单机实现最大化爬取。
<!-- 调整单站最大爬取线程,最好设置为5,因为太多容易被封IP-->
        <property>
  <name>fetcher.threads.per.host</name>
  <value>100</value>
  <description></description>
</property>

<property>
  <name>fetcher.server.delay</name>
  <value>1.0</value>
  <description></description>
</property>

<property>
  <name>fetcher.server.min.delay</name>
  <value>0.0</value>
  <description>The minimum number of seconds the fetcher will delay between
  successive requests to the same server. This value is applicable ONLY
  if fetcher.threads.per.host is greater than 1 (i.e. the host blocking
  is turned off).</description>
</property>

热点排行