首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 服务器 > 云计算 >

mahout算法源码分析之Parallel Frequent Pattern Mining(1)实战

2013-10-22 
mahout算法源码分析之Parallel Frequent Pattern Mining(一)实战Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7

mahout算法源码分析之Parallel Frequent Pattern Mining(一)实战

Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。

本系列分析Parallel Frequent Pattern Mining源码,本篇作为第一篇,首先进行实战,实战参考mahout官网内容。这里主要是测试sequential和mapreduce模式下对数据处理的耗时分析,使用数据为:retail.dat,前面几条数据如下:

但是我把sequential改为mapreduce,然后就可以运行了:

mahout算法源码分析之Parallel Frequent Pattern Mining(1)实战
然后是算法的结束时间:

mahout算法源码分析之Parallel Frequent Pattern Mining(1)实战

这样计算时间应该是:206秒,官网上面说102秒就可以跑完了,估计是我的内存设置比较小;sequential模式的601秒暂时试验不了 了。看下次有空的话在分析为啥sequential的输入文件不存在问题,估计还是和configuration有关。没时间的话就直接分析这个算法的mapreduce模式,不再分析sequential了。


ps:这个算法以前分析过,这次希望能系统的分析下,应该会比较快。


分享,成长,快乐

转载请注明blog地址:http://blog.csdn.net/fansy1990



热点排行