mahout:决策树例子
mahout的版本在不断更新,API的变化使得按照官方文档执行会有一些错误,把这个例子跑通后做了一下整理
1,下载数据集
1.1数据集介绍 KDD(Data Mining and Knowledge Discovery)CUP是由ACM(Association for Computing Machiner)的 SIGKDD(Special Interest Group on Knowledge Discovery and Data Mining)组织的年度竞赛.示例中用的是KDD CUP 1999年的数据集:网络入侵数据. 1998年美国国防部高级规划署(DARPA)在MIT林肯实验室进行了一项入侵检测评估项目。林肯实验室建立了模拟美国空军局域网的一个网络环境,收集了9周时间的 TCPdump(*) 网络连接和系统审计数据,仿真各种用户类型、各种不同的网络流量和攻击手段,使它就像一个真实的网络环境。这些TCPdump采集的原始数据被分为两个部分:7周时间的训练数据 (**) 大概包含5,000,000多个网络连接记录,剩下的2周时间的测试数据大概包含2,000,000个网络连接记录。 随后来自哥伦比亚大学的Sal Stolfo 教授和来自北卡罗莱纳州立大学的 Wenke Lee 教授采用数据挖掘等技术对以上的数据集进行特征分析和数据预处理,形成了一个新的数据集。该数据集用于1999年举行的KDD CUP竞赛中,成为著名的KDD99数据集。虽然年代有些久远,但KDD99数据集仍然是网络入侵检测领域的事实Benckmark,为基于计算智能的网络入侵检测研究奠定基础。
1.2下载地址:http://nsl.cs.unb.ca/NSL-KDD/ 1.3 删除数据集中以@开头的行1.4 将数据集放到hdfs
hadoop jar mahout-examples-0.8-SNAPSHOT-job.jar org.apache.mahout.classifier.df.mapreduce.TestForest -i testdata/KDDTest+.arff -ds testdata/KDDTrain+.info -m ob -a -mr -o predictions