mahout random forests分布式对策

2013-10-08

mahout random forests分布式策略关于mahout中的random forests算法在前面已经分析过，这里简要说下其并行

mahout random forests分布式策略

关于mahout中的random forests算法在前面已经分析过，这里简要说下其并行策略。

刚开始的时候，我以为这个算法好像没啥并行的地方，一开始就是对全部原始数据进行分析，也没有对原始数据进行分片。然后它的job任务也只有一个mapper，这样如何才能多建立几个mapper？然后这样才能达到几个节点并行吧（一个节点计算一个mapper，这样效率才高过一个节点计算多个mapper）。但是如果总共才有一个map任务，那就算有多个节点也是没有用的。然后我就记起来mapper任务map的个数是和输入数据的大小来的，64M就会新建一个map任务，如果数据大于64M就会新建一个map任务。所以我就把前面的glass.data数据进行加倍处理，一直到数据到了70多M的时候然后上传，运行buildforest任务，但是还是只有一个map任务被提交了。这样就让我好郁闷了。

然后就又去看官网的文档，看到下面的一句：

上图可以看到提交了三个map任务，但是一个节点只能同时运行2个map（这个个数可以设置，我只有一个节点，伪分布式）。同时也可以看到运行失败了两个map任务，因为我提交的输入数据太大了（143M），所以内存吃不消了，在终端出现下面的错误：

mahout random forests分布式对策

所以针对这个算法，-Dmapred.max.split.size参数一定要进行设置，而且还要慎重考虑，这个算法同时关系到算法的效率和模型的精确度。

分享，成长，快乐

转载请注明blog地址：http://blog.csdn.net/fansy1990

热点排行

云计算

mahout random forests分布式对策