首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 其他教程 > 开源软件 >

hadoop运行原理之小弟我见

2013-03-29 
hadoop运行原理之我见从接触hadoop到目前,对hadoop的运行流程及原理做初步的总结:? hadoop中的核心hdfs和M

hadoop运行原理之我见

从接触hadoop到目前,对hadoop的运行流程及原理做初步的总结:

? hadoop中的核心hdfs和MR,hdfs为分布式文件系统,通过冗余备份的机制实现数据的安全存储,从数据集中计算到计算的分布式,很大程度上减少了数据的网络传输(计算后的结果数据也可能大于元数据),重要的是集中计算的任务呗分配到多台普通的PC上,负载均衡。

? 总结hadoop计算的流程:

?Map阶段前,通过inputformat将元数据按照一定的规则进行inputsplit分割文件,大家知道,单个文件小于block设置的大小的话独占了一个block大小的空间,而一个block被分配给一个tasknode的一个map,所以MR大量的小文件效率将下降明显:试验证明:2G大小的1000个文件进行MR需要30分钟左右的时间,如果将2G的1000个文件进行预处理为一个大的文件,进行MR时间只用4分钟左右的时间,预处理文件是优化MR效率的有效措施。

? map阶段接受inputsplit,map输出的内容首先存储到缓存中,当缓存的内容达到一定的值时,hadoop将进行shuffle计算,将缓存中的数据进行排序,合并分割操作,之后将写入到本地磁盘,当缓存写磁盘的速度小于map写缓存的速度时,缓存已满那么map将处于暂停等待状态,直到分割写出数据

? 2.准备元数据:可以作为本地模式运行hadoop,也可以上传到HDFS文件系统上

?

热点排行