mahout算法源码分析之Parallel Frequent Pattern Mining（1）实战

2013-10-22

mahout算法源码分析之Parallel Frequent Pattern Mining（一）实战Mahout版本：0.7，hadoop版本：1.0.4，jdk：1.7

mahout算法源码分析之Parallel Frequent Pattern Mining（一）实战

Mahout版本：0.7，hadoop版本：1.0.4，jdk：1.7.0_25 64bit。

本系列分析Parallel Frequent Pattern Mining源码，本篇作为第一篇，首先进行实战，实战参考mahout官网内容。这里主要是测试sequential和mapreduce模式下对数据处理的耗时分析，使用数据为：retail.dat，前面几条数据如下：

但是我把sequential改为mapreduce，然后就可以运行了：

mahout算法源码分析之Parallel Frequent Pattern Mining（1）实战
然后是算法的结束时间：

mahout算法源码分析之Parallel Frequent Pattern Mining（1）实战

这样计算时间应该是：206秒，官网上面说102秒就可以跑完了，估计是我的内存设置比较小；sequential模式的601秒暂时试验不了了。看下次有空的话在分析为啥sequential的输入文件不存在问题，估计还是和configuration有关。没时间的话就直接分析这个算法的mapreduce模式，不再分析sequential了。

ps：这个算法以前分析过，这次希望能系统的分析下，应该会比较快。

分享，成长，快乐

转载请注明blog地址：http://blog.csdn.net/fansy1990

热点排行

云计算

mahout算法源码分析之Parallel Frequent Pattern Mining（1）实战