让Hadoop程序轻松使用第三方Jar
from http://hi.baidu.com/adamsi/blog/item/7415adef32fb121ffcfa3cd9.html
写过Hadoop程序的人都知道,引用第三方的jar是个麻烦事情。这里我介绍一个方法,可以用ant脚本把自己的代码类和所有的第三方jar都打包到一个jar中,然后就能用hadoop jar xxx.jar来运行整个程序。
对应的ant任务描述如下,百度空间贴代码不容易,我就不缩进了,大家谅解。
<target name="hadoop-jar" depends="compile" description="Create binary distribution">
<!-- 首先,我们把所有的第三方jar都复制到build/lib目录中 -->
<copy todir="${path.build.classes}/lib">
<fileset dir="lib">
<include name="**/*.jar"/>
<!-- 因为hadoop-*-core.jar在hadoop系统中已经有了,我们就不对其打包了 -->
<exclude name="**/hadoop-*-core.jar"/>
</fileset>
</copy>
<!-- 列出所有jar文件的名字,并生成一个有效的classpath字符串,放在hadoop-jar.classpath中 -->
<pathconvert property="hadoop-jar.classpath" pathsep=" ">
<regexpmapper from="^(.*)/lib/(.*\.jar)$" to="lib/\2" />
<path>
<fileset dir="${path.build.classes}/lib">
<include name="**/*.jar" />
</fileset>
</path>
</pathconvert>
<!-- 生成一个Manifest文件,包含刚生成的classpath字符串和这个jar的默认运行类 -->
<manifest file="MANIFEST.MF">
<attribute name="Class-Path" value="${hadoop-jar.classpath}" />
<attribute name="Main-Class" value="org.nogroup.Main" />
</manifest>
<!-- 把刚才生成的Manifest文件、程序的类文件和所有依赖的第三方jar都打包在一个jar中 -->
<jar basedir="${path.build.classes}" manifest="MANIFEST.MF" jarfile="${path.build}/learning-hadoop.jar">
<include name="**/*.class"/>
<include name="**/*.jar"/>
</jar>
<!-- 删除manifest文件 -->
<delete dir="${path.build.classes}/lib"/>
<delete file="MANIFEST.MF" />
</target>
我们主要在hadoop-0.15.0上使用这种打包方法,非常方便,在新版本上也是没有问题的。如果在你的hadoop cluster上有问题,欢迎留言交流。