首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 其他教程 > 开源软件 >

使用Hadoop har存档历史文件(小文件)

2013-10-23 
使用Hadoop har归档历史文件(小文件)?申明:本文转自http://heipark.iteye.com/blog/1356063应用场景我们的

使用Hadoop har归档历史文件(小文件)

?申明:本文转自http://heipark.iteye.com/blog/1356063

应用场景

我们的hdfs中保存大量小文件(当然不产生小文件是最佳实践),这样会把namenode的namespace搞的很大。namespace保存着hdfs文件的inode信息,文件越多需要的namenode内存越大,但内存毕竟是有限的(这个是目前hadoop的硬伤)。

下面图片展示了,har文档的结构。har文件是通过mapreduce生成的,job结束后源文件不会删除。

?
使用Hadoop har存档历史文件(小文件)

?

har命令说明
    ? 参数“-p”为src path的前缀? src可以写多个path

?

archive -archiveName NAME -p <parent path> <src>* <dest>

生成HAR文件
    单个src文件夹:

    ?

    hadoop archive -archiveName 419.har -p /fc/src/20120116/ 419 /user/heipark
      多个src文件夹hadoop archive -archiveName combine.har -p /fc/src/20120116/ 419 512 334 /user/heipark
        不指定src path,直接归档parent path(本例为“?/fc/src/20120116/?”,?“?/user/heipark?”仍然为输出path),这招是从源码里翻出来的,嘿嘿。hadoop archive -archiveName combine.har -p /fc/src/20120116/ /user/heipark

        ?

          ?使用模式匹配的src path,下面的示例归档10、11、12月文件夹的数据。这招也是从源码发出来的。hadoop archive -archiveName combine.har -p /fc/src/2011 1[0-2] /user/heipark?

          查看HAR文件hadoop fs -ls har:////user/heipark/20120108_15.har/
          #输出如下:
          drw-r--r-- - hdfs hadoop 0 2012-01-17 16:30 /user/heipark/20120108_15.har/2025
          drw-r--r-- - hdfs hadoop 0 2012-01-17 16:30 /user/heipark/20120108_15.har/2029

          ?

          ?#使用hdfs文件系统查看har文件
          hadoop fs -ls /user/yue.zhang/20120108_15.har/?
          #输出如下:
          -rw-r--r-- 2 hdfs hadoop 0 2012-01-17 16:30 /user/heipark/20120108_15.har/_SUCCESS
          -rw-r--r-- 5 hdfs hadoop 2411 2012-01-17 16:30 /user/heipark/20120108_15.har/_index
          -rw-r--r-- 5 hdfs hadoop 24 2012-01-17 16:30 /user/heipark/20120108_15.har/_masterindex
          -rw-r--r-- 2 hdfs hadoop 191963 2012-01-17 16:30 /user/heipark/20120108_15.har/part-0

          ?

          Har Java API (HarFileSystem )

          ?

          Java代码?使用Hadoop har存档历史文件(小文件)?使用Hadoop har存档历史文件(小文件)
            public?static?void?main(String[]?args)?throws?Exception?{ ??????Configuration?conf?=?new?Configuration(); ??????conf.set("fs.default.name",?"hdfs://xxx.xxx.xxx.xxx:9000"); ?????????? ??????HarFileSystem?fs?=?new?HarFileSystem(); ??????fs.initialize(new?URI("har:///user/heipark/20120108_15.har"),?conf); ??????FileStatus[]?listStatus?=?fs.listStatus(new?Path("sub_dir")); ??????for?(FileStatus?fileStatus?:?listStatus)?{ ??????????System.out.println(fileStatus.getPath().toString()); ??????} ??}??

          ?

          ?

          参考文章:

          http://denqiang.com/?m=20111114

          http://c.hocobo.net/2010/08/05/har/

热点排行