hive 集成hbase 笔记
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为
MapReduce任务进行运行。其优点学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,
十分适合数据仓库的统计分析。Hive与HBase的整合功能的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠hive_hbase-handler.jar工具类.
Hive Hbase整合 见官网 Hive HBase Integration:https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration 。
具体步骤整理如下:
集成步骤:hbase 版本为 0.94.6.1 hive 0.11.0
1,首先将hbase-0.94.6.1/ 目录下的 hbase-0.94.6.1.jar 和 hbase-0.94.6.1/lib下的 zookeeper-3.3.5.jar复制到hive/lib目录下。
注意:如果hive/lib下已经存在这两个文件的其他版本(例如zookeeper-3.3.3.jar),建议删除后使用hbase下的相关版本.
2,在hive/conf下hive-site.xml文件中添加如下的内容:
如果hive/conf 目录下没有hive-site.xml 则把此目录下的hive-default.xml.template拷贝一份并命名 为hive-site.xml。
scan 'test_hive'ROW COLUMN+CELL 1 column=cf1:val, timestamp=1331278861290, value=SF 2 column=cf1:val, timestamp=1331278861290, value=DANE 3 column=cf1:val, timestamp=1331278861290, value=WANG 4 column=cf1:val, timestamp=1331278861290, value=JULY 5 column=cf1:val, timestamp=1331278861260, value=EVA 6 column=cf1:val, timestamp=1331278861260, value=USTC 6 row(s) in 0.6230 seconds
参考;
http://blog.csdn.net/jiedushi/article/details/7325292
http://victorzhzh.iteye.com/blog/972406