首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 服务器 > 云计算 >

mahout源码分析之Decision Forest终结篇

2013-09-28 
mahout源码分析之Decision Forest结束篇Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。Mahout系列

mahout源码分析之Decision Forest结束篇

Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。

Mahout系列之Decision Forest写了几篇,其中的一些过程并没有详细说明,这里就分析一下,作为Decision Forest算法系列的结束篇。

主要的问题包括:(1)在Build Forest中分析完了Step1Mapper后就没有向下分析了,而是直接进行TestForest的分析了,中间其实还是有很多操作的,比如:把Step1Mapper的Job的输出进行转换写入文件。(2)在BuildForest中没有分析当输入是Categorical的情况,这种情况下面执行的某些步骤是不一样的,主要是在DecisionTreeBuilder中的build方法中的区分。(3)在前一篇中最后的使用forest进行对数据的分类只是简要的说了下,这里详细分析下代码。(4)决策树同样可以做回归分析,在Describe阶段设置为回归问题就可以了,但是这里就不想做分析了。下面来分条进行分析:

(1)在BuildForest中提交任务后实际运行的类是Builder中的build方法中的代码。这里面的代码任务运行后的代码如下:

public double classify(Instance instance) {    int index = ArrayUtils.indexOf(values, instance.get(attr));    if (index == -1) {      // value not available, we cannot predict      return -1;    }    return childs[index].classify(instance);  }
这样基本就ok了,下次再看这个算法的时候应该是要分析回归问题了?



分享,成长,快乐

转载请注明blog地址:http://blog.csdn.net/fansy1990



热点排行