hadoop-分布式安装及报错分析
注意:把上面的127.0.0.1的前三行注释掉,如果有的话。这个对以后的启动时,在日志文件中会有报错,奇怪的报错,先去掉。
2. 在/etc/hosts 中的 master名,要与hostname相同,在/etc/sysconfig/network中的名子一样,如果是很一次配置完后,用 source /etc/sysconfig/network 或重login 一下 。
这个如果配不对的话,在后面? hadoop? namenode -format 时,会报错, unkonw host,会有一个:
?
?以上标红色的,一定在用IP地址,用master(机器名)不行,网上有的说行,我在启动后,导致
http://192.168.18.130:50030/jobtracker.jsp
State: RUNNING???????? /////////// INITIALIZING? 开始都是 initializing 装态,但所有的服务都能正常启动,注意去查看 logs/里面的日志 用 ll -tr 对文件的时间排序,用cat 查看日志文件,里面有很一些报错。
2. 对于 <value>/home/hadoop/tmp</value>
目录最好配一个,最好放在账号的主目录下,不用先建好,它会自动新建的。如果放在其它的目录下,还对对账号hadoop 赋权限 改变目录的所属者和所属组。?
再配置mapred-site.xml 。
?定位jobtracker的主节点,这里最好也要用IP 地址,之前用的是master有问题 。
修改 hdfs-site.xml
? dfs.replication? 这是hdfs 的复杂数,还不清楚,这里的2 表示我这里有两台 slave机器,如果你有100台slave机器,1台master,这里就可以写成100,表示备份的数量。
下面可以单独配置hdfs?格式化的目录,如果不配置的话,它默认的目录在/home/hadoop/tmp/dfs下?,当然,也可以配一个单独的目录,最好也配置在主目录下,如/home/hadoop/name?? /home/hadoop/data ,
如果配在其它目录下,要先建好,改变所属者,chown?? chgrp?? 等。
?
6. 再修改 conf/hadoop-env.sh? ,这个文件中,只配一下JAVA_HOME,就行了。
7.修改conf/masters 如:
查看,如果状态不是RUNNING? ,就有问题,查看日志。
用 bin/hadoop? dfs? -ls? .? 或不加.? 查看dfs
这样,整个分布式的hadoop? 就启动好了。
测试示例,bin/hadoop?? jar?? hadoop-example-1.2.0.jar? wordcount? in? out3
这个 in 目录要先建一个,out3? 不用新建,它会自已建,建了反而会报错。
bin/hadoop? dfs -mkdir?? in? 建立 dfs? 目录。
再用 bin/hadoop?? dfs -ls? out3/? 查看里面的文件,有一个:
-rw-r--r--?? 2 hadoop supergroup?????? 1306 2014-01-08 15:13 /user/hadoop/out1/part-r-00000
查看此文件即可:[hadoop@master hadoop1.2]$ bin/hadoop dfs -cat? out1/part-r-00000
就可以查看里面的内容。?注意:
?要把三台机器的防火墙 都关闭,否则也会有问题。
用chkconfig?? iptables? --list? 查看:
[hadoop@master hadoop1.2]$ chkconfig? iptables --list
iptables??????? 0:off?? 1:off?? 2:off?? 3:off?? 4:off?? 5:off?? 6:off
如果有? on 的用chkconfig? --level? 2345? iptables off
这个命令,要用root 用户去操作。?
用此命令
bin/hadoop dfsadmin -report
启动好后,多试几次,在后台可以还在运行,状态由INITIALIZING?--------------? RUNNING? 需要几十秒的时间。