hadoop 学习要义
hadoop 学习要点一、HDFS(一)HDFS?概念(二)HDFS命令行接口(三)Java?接口(四)文件读取和文件写入,一致性(五)
hadoop 学习要点
一、HDFS(一)HDFS?概念(二)HDFS命令行接口(三)Java?接口(四)文件读取和文件写入,一致性(五)集群数据的均衡(六)存档?(七)NameNode?单点故障问题(八)大量小文件处理策略(九)数据备份和恢复(十)数据安全(十一)负载均衡和垃圾回收(十二)安装新节点(十三)卸载节点(十四)HDFS优化(十五)HDFS格式化过程(十六)数据压缩(十七)当前单NameNode?的优势和劣势和改进办法(十八)HDFS架构和设计要点1.?NameNode和DataNode2.?文件系统的NameSpace3.?镜像和编辑日志4.?数据拷贝5.?文件系统元数据的持久化6.?通讯协议7.?健壮性8.?数据组织9.?可访问性二、Hadoop?I/O
?
(一)数据完整性?(二)压缩?(三)序列化?(四)基于文件的数据结构1.?MapFile2.?SequenceFile三、MapReduce?工作机制
?
(一)MapReduce?Job运行过程?(二)TaskTaker?机制?(三)JobTraker机制?(四)任务失败?(五)Job的调度?(六)Suffer?和排序?(七)任务的执行?(八)配置优化和MapReduce?Job优化四、MapReduce?Job?编写(一)MapReduce?组件(二)输入格式(三)输出格式(四)计数器(五)链接
Map端链接
Reduce端链接
(六)排序
部分排序
全排序
辅助排序
(七)边数据分布
?
五、读Mysql数据六、自定义组件七、用MapReduce?实现矩阵乘法八、用MapReduce?实现常见机器学习算法九、Reduce?不均匀
分区的Key和分区函数是操作Reduce分区造成不均匀的原因,策略:修改
十、MapReduce设计模式(一)摘要模式(二)过滤器模式(三)数据组织模式(四)Join模式(五)元模式(六)输入输出模式(七)吞吐量和趋势<!--EndFragment-->