Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理
更多关于 》》》《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》内容简介书籍计算机书籍 “hadoop技术内幕”共两册,分别从源代码的角度对“common+hdfs”和mapreduce的架构设计与实现原理进行了极为详细的分析。《hadoop技术内幕:深入解析hadoop common和hdfs架构设计与实现原理》由腾讯数据平台的资深hadoop专家、x-rime的作者亲自执笔,对common和hdfs的源代码进行了分析,旨在为hadoop的优化、定制和扩展提供原理性的指导。除此之外,本书还从源代码实现中对分布式技术的精髓、分布式系统设计的优秀思想和方法,以及java语言的编码技巧、编程规范和对设计模式的精妙运用进行了总结和分析,对提高读者的分布式技术能力和java编程能力都非常有帮助。本书适合hadoop的二次开发人员、应用开发工程师、运维工程师阅读。 《hadoop技术内幕:深入解析hadoop common和hdfs架构设计与实现原理》共9章,分为三部分:第一部分(第1章)主要介绍了hadoop源代码的获取和源代码阅读环境的搭建;第二部分(第2~5章)对hadoop公共工具common的架构设计和实现原理进行了深入分析,包含hadoop的配置信息处理、面向海量数据处理的序列化和压缩机制、hadoop的远程过程调用,以及满足hadoop上各类应用访问数据的hadoop抽象文件系统和部分具体文件系统等内容;第三部分(第6~9章)对hadoop的分布式文件系统hdfs的架构设计和实现原理进行了详细的分析,这部分内容采用了总分总的结构,第6章对hdfs的各个实体和实体间接口进行了分析;第7章和第8章分别详细地研究了数据节点和名字节点的实现原理,并通过第9章对客户端的解析,回顾了hdfs各节点间的配合,完整地介绍了一个大规模数据存储系统的实现。目录《hadoop技术内幕:深入解析hadoop common和hdfs架构设计与实现原理》前 言第一部分 环境准备第1章 源代码环境准备/ 21.1 什么是hadoop / 21.1.1 hadoop简史/ 21.1.2 hadoop的优势/ 31.1.3 hadoop生态系统/ 41.2 准备源代码阅读环境/ 81.2.1 安装与配置jdk / 81.2.2 安装eclipse / 91.2.3 安装辅助工具ant/ 121.2.4 安装类unix shell环境cygwin / 131.3 准备hadoop源代码/ 151.3.1 下载hadoop / 151.3.2 创建eclipse项目/ 161.3.3 hadoop源代码组织/ 181.4 小结/ 19第二部分 common的实现第2章 hadoop配置信息处理/ 22.2.1 配置文件简介/ 222.1.1 windows操作系统的配置文件/ 222.1.2 java配置文件/ 232.2 hadoop configuration详解/ 242.2.1 hadoop配置文件的格式/ 242.2.2 configuration的成员变量/ 262.2.3 资源加载/ 272.2.4 使用get*和set*访问/设置配置项/ 322.3 configurable接口/ 342.4 小结/ 35第3章 序列化与压缩/ 363.1 序列化/ 363.1.1 java内建序列化机制/ 363.1.2 hadoop序列化机制/ 383.1.3 hadoop序列化机制的特征/ 393.1.4 hadoop writable机制/ 393.1.5 典型的writable类详解/ 413.1.6 hadoop序列化框架/ 483.2 压缩/ 493.2.1 hadoop压缩简介/ 503.2.2 hadoop压缩api应用实例/ 513.2.3 hadoop压缩框架/ 523.2.4 java本地方法/ 613.2.5 支持snappy压缩/ 653.3 小结/ 69第4章 hadoop远程过程调用/ 704.1 远程过程调用基础知识/ 704.1.1 rpc原理/ 704.1.2 rpc机制的实现/ 724.1.3 java远程方法调用/ 734.2 java动态代理/ 784.2.1 创建代理接口/ 784.2.2 调用转发/ 804.2.3 动态代理实例/ 814.3 java nio/ 844.3.1 java基本套接字/ 844.3.2 java nio基础/ 864.3.3 java nio实例:回显服务器/ 934.4 hadoop中的远程过程调用/ 964.4.1 利用hadoop ipc构建简单的分布式系统/ 964.4.2 hadoop ipc的代码结构/ 1004.5 hadoop ipc连接相关过程/ 1044.5.1 ipc连接成员变量/ 1044.5.2 建立ipc连接/ 1064.5.3 数据分帧和读写/ 1114.5.4 维护ipc连接/ 1144.5.5 关闭ipc连接/ 1164.6 hadoop ipc方法调用相关过程/ 1184.6.1 java接口与接口体/ 1194.6.2 ipc方法调用成员变量/ 1214.6.3 客户端方法调用过程/ 1234.6.4 服务器端方法调用过程/ 1264.7 hadoop ipc上的其他辅助过程/ 1354.7.1 rpc.getproxy()和rpc.stopproxy() / 1364.7.2 rpc.getserver()和server的启停/ 1384.8 小结/ 141第5章 hadoop文件系统/ 1425.1 文件系统/ 1425.1.1 文件系统的用户界面/ 1425.1.2 文件系统的实现/ 1455.1.3 文件系统的保护控制/ 1475.2 linux文件系统/ 1505.2.1 linux本地文件系统/ 1505.2.2 虚拟文件系统/ 1535.2.3 linux文件保护机制/ 1545.2.4 linux文件系统api/ 1555.3 分布式文件系统/ 1595.3.1 分布式文件系统的特性/ 1595.3.2 基本nfs体系结构/ 1605.3.3 nfs支持的文件操作/ 1605.4 java文件系统/ 1625.4.1 java文件系统api / 1625.4.2 uri和url / 1645.4.3 java输入/输出流/ 1665.4.4 随机存取文件/ 1695.5 hadoop抽象文件系统/ 1705.5.1 hadoop文件系统api / 1705.5.2 hadoop输入/输出流/ 1755.5.3 hadoop文件系统中的权限/ 1795.5.4 抽象文件系统中的静态方法/ 1805.5.5 hadoop文件系统中的协议处理器/ 1845.6 hadoop具体文件系统/ 1885.6.1 filesystem层次结构/ 1895.6.2 rawlocalfilesystem的实现/ 1915.6.3 checksumfilesystem的实现/ 1965.6.4 rawinmemoryfilesystem的实现/ 2105.7 小结/ 213第三部分 hadoop分布式文件系统第6章 hdfs概述/ 2166.1 初识hdfs / 2166.1.1 hdfs主要特性/ 2166.1.2 hdfs体系结构/ 2176.1.3 hdfs源代码结构/ 2216.2 基于远程过程调用的接口/ 2236.2.1 与客户端相关的接口/ 2246.2.2 hdfs各服务器间的接口/ 2366.3 非远程过程调用接口/ 2446.3.1 数据节点上的非ipc接口/ 2456.3.2 名字节点和第二名字节点上的非ipc接口/ 2526.4 hdfs主要流程/ 2546.4.1 客户端到名字节点的文件与目录操作/ 2546.4.2 客户端读文件/ 2566.4.3 客户端写文件/ 2576.4.4 数据节点的启动和心跳/ 2586.4.5 第二名字节点合并元数据/ 2596.5 小结/ 261第7章 数据节点实现/ 2637.1 数据块存储/ 2637.1.1 数据节点的磁盘目录文件结构/ 2637.1.2 数据节点存储的实现/ 2667.1.3 数据节点升级/ 2697.1.4 文件系统数据集的工作机制/ 2767.2 流式接口的实现/ 2857.2.1 dataxceiverserver和dataxceiver / 2867.2.2 读数据/ 2897.2.3 写数据/ 2987.2.4 数据块替换、数据块拷贝和读数据块检验信息/ 3137.3 作为整体的数据节点/ 3147.3.1 数据节点和名字节点的交互/ 3147.3.2 数据块扫描器/ 3197.3.3 数据节点的启停/ 3217.4 小结/ 326第8章 名字节点实现/ 3278.1 文件系统的目录树/ 3278.1.1 从i-node到inode/ 3278.1.2 命名空间镜像和编辑日志/ 3338.1.3 第二名字节点/ 3518.1.4 fsdirectory的实现/ 3618.2 数据块和数据节点管理/ 3658.2.1 数据结构/ 3668.2.2 数据节点管理/ 3788.2.3 数据块管理/ 3928.3 远程接口clientprotocol的实现/ 4128.3.1 文件和目录相关事务/ 4128.3.2 读数据使用的方法/ 4158.3.3 写数据使用的方法/ 4198.3.4 工具dfsadmin依赖的方法/ 4438.4 名字节点的启动和停止/ 4448.4.1 安全模式/ 4448.4.2 名字节点的启动/ 4498.4.3 名字节点的停止/ 4548.5 小结/ 454第9章 hdfs客户端/ 4559.1 认识dfsclient / 4559.1.1 dfsclient的构造和关闭/ 4559.1.2 文件和目录、系统管理相关事务/ 4579.1.3 删除hdfs文件/目录的流程/ 4599.2 输入流/ 4619.2.1 读数据前的准备:打开文件/ 4639.2.2 读数据/ 4659.2.3 关闭输入流/ 4759.2.4 读取hdfs文件数据的流程/ 4759.3 输出流/ 4789.3.1 写数据前的准备:创建文件/ 4819.3.2 写数据:数据流管道的建立/ 4829.3.3 写数据:数据包的发送/ 4869.3.4 写数据:数据流管道出错处理/ 4939.3.5 写数据:租约更新/ 4969.3.6 写数据:dfsoutputstream.sync()的作用/ 4979.3.7 关闭输出流/ 4999.3.8 向hdfs文件写入数据的流程/ 5009.4 distributedfilesystem的实现/ 5069.5 hdfs常用工具/ 5089.5.1 fsshell / 5089.5.2 dfsadmin / 5109.6 小结/ 511?本图书信息来源:中国互动出版网