Hadoop 学习笔记(一)
解决主要问题:海量数据存储(HDFS),分布式运算(Map Reduce)
存储单位——“Block”,每个块存3份
HDFS特点
水平扩展存储(运算)能力
数据备份
HDFS中主要角色:
Namenode(负责协调)
Datanode(负责干活)
map reduce是一种数据处理的编程模型,下面两个例子将说明它的处理过程:
一、SHELL命令举例:
ls | grep 2008 #查询文件名包含2008的文件
ls | grep 2008 | wc -l #计算上述指令查询文件个数
二、SQL举例:
select * from device t where t.name like 'CNC-Bj%'
select count(*) from device t where t.name like 'CNC-Bj%
前一个动作是map 后一个动作是reduce
Map reduce 框架包含两个程序:
Jobtracker(Job协调)
Tasktracker(干活)
不足:小文件
namenode小文件问题,大量小文件会导致其内存溢出,mapreduce job运行效率低下