mahout源码分析之Decision Forest终结篇

2013-09-28

mahout源码分析之Decision Forest结束篇Mahout版本：0.7，hadoop版本：1.0.4，jdk：1.7.0_25 64bit。Mahout系列

mahout源码分析之Decision Forest结束篇

Mahout版本：0.7，hadoop版本：1.0.4，jdk：1.7.0_25 64bit。

Mahout系列之Decision Forest写了几篇，其中的一些过程并没有详细说明，这里就分析一下，作为Decision Forest算法系列的结束篇。

主要的问题包括：（1）在Build Forest中分析完了Step1Mapper后就没有向下分析了，而是直接进行TestForest的分析了，中间其实还是有很多操作的，比如：把Step1Mapper的Job的输出进行转换写入文件。（2）在BuildForest中没有分析当输入是Categorical的情况，这种情况下面执行的某些步骤是不一样的，主要是在DecisionTreeBuilder中的build方法中的区分。（3）在前一篇中最后的使用forest进行对数据的分类只是简要的说了下，这里详细分析下代码。（4）决策树同样可以做回归分析，在Describe阶段设置为回归问题就可以了，但是这里就不想做分析了。下面来分条进行分析：

（1）在BuildForest中提交任务后实际运行的类是Builder中的build方法中的代码。这里面的代码任务运行后的代码如下：

public double classify(Instance instance) {    int index = ArrayUtils.indexOf(values, instance.get(attr));    if (index == -1) {      // value not available, we cannot predict      return -1;    }    return childs[index].classify(instance);  }

这样基本就ok了，下次再看这个算法的时候应该是要分析回归问题了？

分享，成长，快乐

转载请注明blog地址：http://blog.csdn.net/fansy1990

热点排行

云计算

mahout源码分析之Decision Forest终结篇