mahout算法源码分析之Parallel Frequent Pattern Mining(一)实战
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。
本系列分析Parallel Frequent Pattern Mining源码,本篇作为第一篇,首先进行实战,实战参考mahout官网内容。这里主要是测试sequential和mapreduce模式下对数据处理的耗时分析,使用数据为:retail.dat,前面几条数据如下:
但是我把sequential改为mapreduce,然后就可以运行了:
然后是算法的结束时间:这样计算时间应该是:206秒,官网上面说102秒就可以跑完了,估计是我的内存设置比较小;sequential模式的601秒暂时试验不了 了。看下次有空的话在分析为啥sequential的输入文件不存在问题,估计还是和configuration有关。没时间的话就直接分析这个算法的mapreduce模式,不再分析sequential了。
ps:这个算法以前分析过,这次希望能系统的分析下,应该会比较快。
分享,成长,快乐
转载请注明blog地址:http://blog.csdn.net/fansy1990