hadoop运行原理之小弟我见

2013-03-29

hadoop运行原理之我见从接触hadoop到目前，对hadoop的运行流程及原理做初步的总结：? hadoop中的核心hdfs和M

hadoop运行原理之我见

从接触hadoop到目前，对hadoop的运行流程及原理做初步的总结：

? hadoop中的核心hdfs和MR，hdfs为分布式文件系统，通过冗余备份的机制实现数据的安全存储，从数据集中计算到计算的分布式，很大程度上减少了数据的网络传输（计算后的结果数据也可能大于元数据），重要的是集中计算的任务呗分配到多台普通的PC上，负载均衡。

? 总结hadoop计算的流程：

?Map阶段前，通过inputformat将元数据按照一定的规则进行inputsplit分割文件，大家知道，单个文件小于block设置的大小的话独占了一个block大小的空间，而一个block被分配给一个tasknode的一个map，所以MR大量的小文件效率将下降明显：试验证明：2G大小的1000个文件进行MR需要30分钟左右的时间，如果将2G的1000个文件进行预处理为一个大的文件，进行MR时间只用4分钟左右的时间，预处理文件是优化MR效率的有效措施。

? map阶段接受inputsplit，map输出的内容首先存储到缓存中，当缓存的内容达到一定的值时，hadoop将进行shuffle计算，将缓存中的数据进行排序，合并分割操作，之后将写入到本地磁盘，当缓存写磁盘的速度小于map写缓存的速度时，缓存已满那么map将处于暂停等待状态，直到分割写出数据

? 2.准备元数据：可以作为本地模式运行hadoop，也可以上传到HDFS文件系统上

热点排行

开源软件

hadoop运行原理之小弟我见