分布式文件系统NFS上筹建hadoop集群

2012-08-03

分布式文件系统NFS上搭建hadoop集群总的来说，hadoop并不适合搭建在NFS上。一来是NFS的存储成本过高，二来损

分布式文件系统NFS上搭建hadoop集群
总的来说，hadoop并不适合搭建在NFS上。一来是NFS的存储成本过高，二来损失了hadoop原本在分布式上的“本地性”特点。

不过由于各种各样的原因，有时候需要在分布式文件系统NFS上搭建hadoop。分布式NFS这种架构主要是计算节点和存储节点的分离。计算节点带有少量的存储。在某些情况下甚至没有存储可以用，这是因为计算节点除了装系统的空间外，不给用户在计算节点上存储任何东西。

因此，搭建hadoop也就可以分两种情况：

一、计算节点上有存储空间可以使用的情况。
这种情况其实较好处理。因为计算节点可以有存储可以用，因此可以把HADOOP_HOME设在每个计算节点的存储上，这个目录一般来说最多几百兆，而类似logs,tmp目录设置到NFS上，因为它们非常占存储，而且随着时间的推移，所占的空间越来越多，因此如果是放在计算节点上肯定是不行的。对于HADOOP_HOME，每个数据节点上的路径都是一致的。而logs和tmp目录应该根据每个不同的datanode设置不同的路径。
例如：
HADOOP_HOME在(hadoop-env.sh)中可以设置为：



而在slaves.sh中：

对于这个for循环启动其他的datanodes，它每次传进去的HADOOP_HOME都是namenode设置好的变量。

4.解决
既然知道问题的原因，解决起来也就很简单了。只需要在namenode去启动其他datanode时候告诉每个datanode其相应的HADOOP_HOME，然后去读取响应的配置文件即可。

可以在NFS上设置目录：
`-- hadoop

-- hadoop160
-- hadoop161
-- hadoop162
-- hadoop163
-- hadoop164
-- hadoop165
-- hadoop166
-- hadoop167
-- hadoop168
-- hadoop169
-- hadoop170
-- hadoop171
-- hadoop172
-- hadoop173
-- hadoop174
-- hadoop175
-- hadoop176
-- hadoop177
-- hadoop178
-- hadoop179
-- hadoop180
-- hadoop181
-- hadoop182

某个datanode的ip地址为192.168.6.160。则把它所有的相关的配置路径（如logs,tmp,conf,pids）都设置在该路径hadoop160的路径下。

若集群namenode地址为192.168.6.100，它在调用slaves.sh的时候会把hadoop100的路径给其他的datanodes，这时候传参数的时候只要根据slaves的ip改成相应的目录即可。内容改变如下：

热点排行

软件架构设计

分布式文件系统NFS上筹建hadoop集群