首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 服务器 > 云计算 >

懂得MapReduce

2012-06-20 
理解MapReduce理解MapReduceHadoop的MapReduce过程具有如下形式:1) map: (K1, V1) list(K2, V2)2) redu

理解MapReduce

理解MapReduce

Hadoop的MapReduce过程具有如下形式:

          1) map: (K1, V1) => list(K2, V2)
          2) reduce: (K2, list(V2)) => list(K3, V3)

我用一个简单的例子说明它表示的含义:

假设待分析的数据文件是一个用户名和密码的表,即"用户名,密码"格式:

========= input.dat=========

zhang,123456

wang,qazxsw

liu,123456

meng,xxx123

hunan,qazxsw

chin,qazxsw

feifei,1008xyz

... ...

==========================

那么我们要求统计出密码使用的次数大于1次的,即最终可以得到下面的结果:

123456=2

qazxsw=3


用MapReduce可以这样做:

第1步:Map

protected void map(LongWritable key, Text value, Context context);

Map的输入(K1, V1)默认是(文件行号,文件行),即map函数每次得到的输入都是下面的形式:

(key=>K1, value=>V1)

第1次:(0,  "zhang,123456")

第2次:(1, "wang,qazxsw")

第3次:(2, "liu,123456")

第4次:(3, "meng,xxx123")

...

我们需要在map函数的value参数V1中,提取出密码作为输出的K2=>key,而输出的value是1(次数),

表示一个用户使用了这个密码=>K2。

map运行完后得到了下面的结果:list(K2, V2),即:

K2        (V2)

123456(1)

qazxsw(1)

123456(1)

xxx123(1)

qazxsw(1)

qazxsw(1)

1008xyz(1)

这个输出被系统自动归并为K2=>list(V2),即:

123456=>(1,1)

qazxsw=>(1,1,1)

xxx123=>(1)

1008xyz=>(1)

这个(K2, list(V2)) 接着作为reduce的输入。


第2步:Reduce

protected void reduce(Text key, Iterable<IntWritable> values, Context context);

reduce函数的输入既然是key=K2, value=list(V2),那么我们就可以把每个K2下的list(v2)的元素相加,得到下面的结果:

123456=>(2)

qazxsw=>(3)

xxx123=>(1)

1008xyz=>(1)

我们只保留次数大于1的,所以最后的reduce输出为:

123456=>(2)

qazxsw=>(3)

这个就是:list(K3, V3)。这里K3与K2类型一致,V3与V2类型一致。

以上就是Map Reduce的全过程。



热点排行