hadoop-分布式装配及报错分析

2014-01-12

hadoop-分布式安装及报错分析注意：把上面的127.0.0.1的前三行注释掉，如果有的话。这个对以后的启动时，在日

hadoop-分布式安装及报错分析

注意：把上面的127.0.0.1的前三行注释掉，如果有的话。这个对以后的启动时，在日志文件中会有报错，奇怪的报错，先去掉。

2. 在/etc/hosts 中的 master名，要与hostname相同，在/etc/sysconfig/network中的名子一样，如果是很一次配置完后，用 source /etc/sysconfig/network 或重login 一下。

这个如果配不对的话，在后面? hadoop? namenode -format 时，会报错， unkonw host，会有一个：

?以上标红色的，一定在用IP地址，用master(机器名）不行，网上有的说行，我在启动后，导致

http://192.168.18.130:50030/jobtracker.jsp

State: RUNNING???????? /////////// INITIALIZING? 开始都是 initializing 装态，但所有的服务都能正常启动，注意去查看 logs/里面的日志用 ll -tr 对文件的时间排序，用cat 查看日志文件，里面有很一些报错。
2. 对于 <value>/home/hadoop/tmp</value>
目录最好配一个，最好放在账号的主目录下，不用先建好，它会自动新建的。如果放在其它的目录下，还对对账号hadoop 赋权限改变目录的所属者和所属组。

再配置mapred-site.xml 。

?定位jobtracker的主节点，这里最好也要用IP 地址，之前用的是master有问题。

修改 hdfs-site.xml

? dfs.replication? 这是hdfs 的复杂数，还不清楚，这里的2 表示我这里有两台 slave机器，如果你有100台slave机器，1台master，这里就可以写成100，表示备份的数量。

下面可以单独配置hdfs?格式化的目录，如果不配置的话，它默认的目录在/home/hadoop/tmp/dfs下?，当然，也可以配一个单独的目录，最好也配置在主目录下，如/home/hadoop/name?? /home/hadoop/data ,

如果配在其它目录下，要先建好，改变所属者，chown?? chgrp?? 等。

6. 再修改 conf/hadoop-env.sh? ，这个文件中，只配一下JAVA_HOME，就行了。

7.修改conf/masters 如：

查看，如果状态不是RUNNING? ，就有问题，查看日志。

用 bin/hadoop? dfs? -ls? .? 或不加.? 查看dfs

这样，整个分布式的hadoop? 就启动好了。

测试示例，bin/hadoop?? jar?? hadoop-example-1.2.0.jar? wordcount? in? out3

这个 in 目录要先建一个，out3? 不用新建，它会自已建，建了反而会报错。

bin/hadoop? dfs -mkdir?? in? 建立 dfs? 目录。

再用 bin/hadoop?? dfs -ls? out3/? 查看里面的文件，有一个：

-rw-r--r--?? 2 hadoop supergroup?????? 1306 2014-01-08 15:13 /user/hadoop/out1/part-r-00000
查看此文件即可：

[hadoop@master hadoop1.2]$ bin/hadoop dfs -cat? out1/part-r-00000
就可以查看里面的内容。

?注意：

?要把三台机器的防火墙都关闭，否则也会有问题。

用chkconfig?? iptables? --list? 查看：

[hadoop@master hadoop1.2]$ chkconfig? iptables --list
iptables??????? 0:off?? 1:off?? 2:off?? 3:off?? 4:off?? 5:off?? 6:off
如果有? on 的用

chkconfig? --level? 2345? iptables off
这个命令，要用root 用户去操作。

用此命令

bin/hadoop dfsadmin -report
启动好后，多试几次，在后台可以还在运行，状态由INITIALIZING?--------------? RUNNING? 需要几十秒的时间。

热点排行

编程

hadoop-分布式装配及报错分析