Hadoop技术内幕_深入解析Hadoop Common和HDFS架构设计与实现原理——读书笔记(1)
? ??
? ? ? ? (a). Hadoop Common: 为Hadoop的其它项目提供一些常用工具,主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FieSystem等。
? ? ? ? (b). Avro: 是一个数据序列化系统。可以将数据结构或者对象转换成便于存储和传输的格式。
? ? ? ? (c). Zookeeper: 是一个分布式的服务框架。可用于处理分布式的一些数据管理问题,如统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。
? ? ? ? (d). HDFS: Hadoop分布式文件系统(Hadoop Distributed File System),是Hadoop体系中数据存储管理的基础。
? ? ? ? (e). MapReduce: 是一种计算模型,用于进行大数据量的计算。
? ? ? ? (f). HBase: 是google的BigTable的开源实现,是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。
? ? ? ? (g). Hive: 是建立在Hadoop基础上的数据仓库架构。
? ? ? ? (h). Pig: 是对大型数据集进行分析 和评估的平台,数据分析工具。
? ? ? ? (i). Mahout: 在Hadoop基础上创建一些可扩展的机器学习领域经典算法的实现。
? ? ? ? (j). X-RIME: 开源的社会网络分析工具。
? ? ? ? (k). Crossbow: 利用Hadoop集群进行生物计算。
? ? ? ? (l). Chukwa: 开源的数据收集系统。
? ? ? ? (m). Flume: 日志收集系统。
? ? ? ? (n). Sqoop: 是SQL-to-Hadoop的缩写,主要是在结构化数据存储与Hadoop之间进行数据交换。
? ? ? ? (o). Oozie: 开源工作流引擎。
? ? ? (a). JDK
? ? ? ? ? ? ?可以不配置环境变量,但是有些第三方的程序会把自己的JDK路径加到PATH环境变量中,所有最好 还是手动配置JAVA_HOME、CLASSPATH和PATH等环境变量。
? ? ? (b). Eclipse
? ? ? (c). Ant
? ? ? ? ? ? 添加ANT_HOME环境变量,并在PATH中加入"%ANT_HOME%\bin"。
? ? ? (d). Ivy
? ? ? ? ? ? ?安装apache Ivy,用于管理项目的外部构建依赖项。
? ? ? (e). 安装类Unix Shell环境 Cygwin
? ? ? ? ? ? 注意:Cygwin只针对widows操作系统,其它系统不用安装。
? ? ? ? ? ? ? ? ? ? ? ?在安装程序的步骤4(Cygwin Setup-Select Package)中选择Unix的在线编辑器sed,可以利用Search输入框快速找到sed。
? ? ? (f). 下载Hadoop
? ? ? ? ? ? 注意:hadoop-1.2.1.tar.gz ? ? ? ? ? ? ? ? 里面包含源码
? ? ? ? ? ? ? ? ? ? ? hadoop-1.2.1-bin.tar.gz ? ? ? ? ? 里面没有源码
? ? ? (g). 创建Eclipse项目:
? ? ? ? ? ? ?(1) ?解压下载的?hadoop-1.2.1.tar.gz 包,到目录E:\hadoop-1.2.1
? ? ? ? ? ? ?(2) ?启动Cygwin定位到“目录E:\hadoop-1.2.1”,执行“ant eclipse”
? ? ? ? ? ? ?(3) ?打开eclipse的File --- New --- Java Project,创建一个新的Java项目,选择项目的位置为“E:\hadoop-1.2.1”,就好。
?
备注:此篇为读书笔记,后面会持续更新,如有问题请留言。