首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 软件管理 > 软件架构设计 >

Hadoop学习笔记2

2013-11-16 
Hadoop学习笔记二学习笔记二参考书:实战Hadoop、Hadoop实战、高可用性的HDFS伪分布式模式的安装和配置步骤:1

Hadoop学习笔记二

学习笔记二
参考书:实战Hadoop、Hadoop实战、高可用性的HDFS
伪分布式模式的安装和配置步骤:
1、下载并解压Hadoop安装包
2、进入Hadoop的解压目录,编辑conf/hadoop-env.sh文件(注意0.23版后配置文件的位置有所变化)
3、编辑conf目录下core-site.xml、hdfs-site.xml和mapred-site.xml三个核心配置文件
4、配置ssh,生成密钥,使到ssh可以免密码连接localhost
5、格式化HDFS
6、使用bin/start -all.sh启动Hadoop
7、使用bin/stop-all.sh关闭Hadoop
解压hadoop:
tar xzvf /root/hadoop-0.20.2
Hadoop配置文件:
hadoop-env.sh?在运行hadoop的脚本中使用的环境变量
core-site.xml?Hadoop核心的配置,例如HDFS和MapReduce中很普遍的I/O设置
hdfs-site.xml?HDFS后台程序设置的配置:名称节点,第二名称节点和数据节点
mapred-site.xml?MapReduce后台程序设置的配置:jobtracker和tasktracker
修改hadoop-env.sh:
export?JAVA_HOME=/usr/java/jdk1.6.0_26
详细设计参见《权威指南》P269
修改core-site.xml:
<configuration>
?<property>
??<name>fs.default.name</name>
??<value>hdfs://localhost:90000</value>??
?</property>
</configuration>
core-site.xml中常见配置参数
fs.default.name??NameNode的IP地址和端口
修改hdfs-site.xml:
<configuration>
<property>
<name>dfs.data.dir</name>
<value>/usr/hadoop-0.20.2/data
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
修改mapred-site.xml文件
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
生成ssh密钥对:
cd?/root
ssh-keygen -t rsa
cd .ssh
ls
cp id_dsa.pub authorized_keys
完全分布式模式的安装和配置:
1、配置hosts文件
2、建立hadoop运行账号
3、配置ssh免密码连入
4、下载并解压hadoop安装包
5、配置namenode,修改site文件
6、配置hadoop-env.sh
7、配置masters和slaves文件
8、向各节点复制hadoop
9、格式化namenode
10、启动hadoop
11、用jps检验各后台进程是否成功启动
配置hosts文件:
所有的节点都修改/etc/hosts,是彼此之间都能把主机名解析为ip
建立专门的运行hadoop的用户:
在所有的节点上都建立运行hadoop的专用用户grid
SSH配置:
注意要以grid用户登录,在grid用户的主目录下进行操作!
每个节点作相同操作
ssh-keygen -t rsa
cp id_rsa.pub authorized_keys
分发ssh公钥:
把各个节点的authorized_keys的内容相互拷贝加入到对方的此文件中,然后就可以免密码彼此ssh连入
下载hadoop压缩包并解压
su
cp?hadoop-0.20.2.tar.gz /home/grid
scp hadoop-0.20.2.tar.gz grid@h2:/home/grid
scp?hadoop-0.20.2.tar.gz grid@h3:/home/grid
在namenode上配置hadoop
1、按照和伪分布模式相同的方法修改core-site.xml,hdfs-site.xml,mapred-site.xml等配置文件
2、修改hadoop-env.sh文件
3、修改hadoop-env.sh文件
4、修改masters和slaves文件,记录集群中各个节点
5、向各节点分发hadoop
6、格式化namenode
7、在namenode上启动守护进程,系统会自动到各个节点启动相应的进程
修改core-site.xml、hdfs-site.xml以及mapred-site.xml(注意修改localhost)
修改core-site.xml:
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:90000</value>
</property>
</configuration>
修改mapred-site.xml:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
修改hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
</configuration>
修改masters和slaves文件:

cd conf
vi masters
vi slaves
修改hadoop-env.sh
ls /usr/java
vi hadoop-env.sh
export JAVA_HOME=/usr/java/jdk1.6.0_26
向各节点复制hadoop:
scp -r ./hadoop-0.20.2 h2:/home/grid
scp -r ./hadoop-0.20.2 h3:/home/grid
格式化分布式文件系统:
cd hadoop-0.20.2
bin/hadoop namenode -format
启动守护进程:
cd hadoop-0.20.2
bin/start-all.sh
检测守护进程启动情况:
ls /usr/java/jdk1.6.0_26/bin
ls /usr/java/jdk1.6.0_26/bin/jps
/usr/java/jdk1.6.0_26/bin/jps

?

热点排行