mahout关联规则源码分析 Part 一

2012-11-10

mahout关联规则源码分析 Part 1最近看了关联规则的相关算法，着重看了mahout的具体实现，mahout官网上面给出

mahout关联规则源码分析 Part 1

最近看了关联规则的相关算法，着重看了mahout的具体实现，mahout官网上面给出了好多算法，具体网址如下：https://cwiki.apache.org/confluence/display/MAHOUT/Parallel+Frequent+Pattern+Mining 。

先说下命令行运行关联规则，关联规则的算法在mahout-core-0,7.jar包下面，命令行运行如下：

这张图很好的说明了mahout实现关联规则思想，或者说是流程；

首先，读入数据，比如上图的5个transactions(事务),接着根据一张总表（这张总表是每个item的次数从大到小的一个排列，同时这张表还去除了出现次数小于min_support的item）把这些transactions 去除一些项目并按照总表的顺序排序，得到另外的一个transaction A，接着map的输出就是根据transaction A输出规则，从出现次数最小的item开始输出直到出现次数第二大的item。

Reduce收集map输出相同的key值，把他们的value值放一个集合set 中，然后在统计这些集合中item出现的次数，如果次数大于min_confidence(本例中为3),那么就输出key和此item的规则；

命令行运行时可以看到三个MR，即可以把关联规则的算法分为三部分，但是个人觉得可以分为四个部分，其中的一部分就是总表的获得；鉴于目前本人只看了一个MR和总表的获得部分的源码，今天就只分享这两个部分；

贴代码先，基本都是源码来的，只是稍微改了下：

第一个MR的驱动程序：PFGrowth_ParallelCounting.java:

分享，快乐，成长

热点排行

云计算

mahout关联规则源码分析 Part 一