HDFS导出数据到HBase的ROWVALUE设置tricks
在做Hadoop的编程时,有时会用到HBase,常常涉及到把HDFS上面的数据导入到HBase中,在这个操作中,row的设置比较重要,如果几条记录的row值一样,同时列簇也一样的话,那么后面的数据就会覆盖前面的数据,比如这样:
比如现在有这样的一个操作:
我要把下面的数据导入HBase:
疑问:(1)如果数据文件是多个的话,那么第二种想法就会导致有些数据被覆盖。多个数据的话是否可以用一个MR 把所有的数据先放入一个文件然后在调用上面的代码?
(2)是否有其他的比较好的做法呢?
分享,成长,快乐