首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 其他教程 > 开源软件 >

Hadoop 学习札记(一)

2013-10-25 
Hadoop 学习笔记(一)解决主要问题:海量数据存储(HDFS),分布式运算(Map Reduce)存储单位——“Block”,每个块存

Hadoop 学习笔记(一)
解决主要问题:海量数据存储(HDFS),分布式运算(Map Reduce)
存储单位——“Block”,每个块存3份
HDFS特点
水平扩展存储(运算)能力
数据备份
HDFS中主要角色:
Namenode(负责协调)
Datanode(负责干活)

map reduce是一种数据处理的编程模型,下面两个例子将说明它的处理过程:
一、SHELL命令举例:
ls | grep 2008   #查询文件名包含2008的文件
ls | grep 2008 | wc -l  #计算上述指令查询文件个数

二、SQL举例:
select * from device t where t.name like 'CNC-Bj%'
select count(*) from device t where t.name like 'CNC-Bj%

前一个动作是map 后一个动作是reduce

Map reduce 框架包含两个程序:
Jobtracker(Job协调)
Tasktracker(干活)
不足:小文件
namenode小文件问题,大量小文件会导致其内存溢出,mapreduce job运行效率低下

热点排行