首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 服务器 > 云计算 >

Hadoop开发周期(二):编写地图per和reducer程序

2013-03-27 
Hadoop开发周期(二):编写mapper和reducer程序编写一个简单的MapReduce程序大体上需要如下3步:1)实现Mapper

Hadoop开发周期(二):编写mapper和reducer程序

编写一个简单的MapReduce程序大体上需要如下3步:

1)实现Mapper,处理输入的对,输出中间结果;2)实现Reducer,对中间结果进行运算,输出最终结果;3)在main方法里定义运行作业,定义一个job,在这里控制job如何运行等。

本文将通过一个实例(字数统计)演示MapReduce基本编程。

0 导入Hadoop的jar包

导入hadoop目录下和lib目录下的jar包

Hadoop开发周期(二):编写地图per和reducer程序

1 编写Mapper类

      Mapper抽象类是一个泛型,有4个形式的参数类型,分别指定map函数的输入键,输入值,输出键,输出值。就上面的示例来说,输入键没有用到(实际代表行在文本中格的位置,没有这方面的需要,所以忽略),输入值是一样文本,输出键为单词,输出值代表单词出现的次数。

      Hadoop规定了自己的一套可用于网络序列优化的基本类型,而不是使用内置的java类型,这些都在org.apache.hadoop.io包中定义,上面使用的Text类型相当于java的String类型,IntWritable类型相当于java的Integer类型。

package cn.com.yz.mapreduce;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import org.apache.hadoop.util.GenericOptionsParser;public class WordCount {public static void main(String[] args) throws Exception {Configuration conf = new Configuration();String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();if (otherArgs.length != 2) {System.err.println("Usage: wordcount <in> <out>");System.exit(2);}// end if// set job Job job = new Job(conf, "word count");job.setJarByClass(WordCount.class);job.setMapperClass(WordCountMapper.class);job.setCombinerClass(WordCountReducer.class);job.setReducerClass(WordCountReducer.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);// set input and output pathFileInputFormat.addInputPath(job, new Path(otherArgs[0]));FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));        //submit job and wait for fininshingSystem.exit(job.waitForCompletion(true) ? 0 : 1);}// end main()} // end class WordCount
      Hadoop的复杂在于job的配置有着复杂的属性参数,如文件分割策略、排序策略、map输出内存缓冲区的大小、工作线程数量等,深入理解掌握这些参数才能使自己的MapReduce程序在集群环境中运行的最优。




热点排行