如何从Spark中的Hbase表读取数据？

Question

我在Hbase中有一个表，其中包含以下数据：

ROW COLUMN+CELL
1   column=brid:, timestamp=1470047093100, value=a1234
1   column=custid:, timestamp=1470046713207, value=811411
2   column=brid:, timestamp=1470047231583, value=a6789
2   column=custid:, timestamp=1470047156905, value=848727431

我正在尝试将此数据读入Spark，然后将表内的数据打印到控制台。 我实现此目的的代码如下：

val conf = new SparkConf().setAppName("Spark Base").setMaster("local[*]")
val sc = new SparkContext(conf)

val hbaseConf = HBaseConfiguration.create()
hbaseConf.set("hbase.zookeeper.quorum", "127.0.0.1")
hbaseConf.set("hbase.zookeeper.property.clientPort", "5181") 
hbaseConf.set(TableInputFormat.INPUT_TABLE, "/path/to/custid1") 

val hbaseData = sc.newAPIHadoopRDD(hbaseConf, classOf[TableInputFormat], classOf[ImmutableBytesWritable], classOf[Result])

hbaseData.map(row => Bytes.toString(row._2.getValue("custid".getBytes(), "brid".getBytes()))).collect().foreach(println)
println("Number of Records found : " + hbaseData.count())
sc.stop()

输出看起来像这样：

null
null
Number of Records found : 2

该计数是正确的，因为Hbase表中只有两条记录。 但是为什么将值显示为null？ 而且，我如何才能真正在表中打印值？

谢谢。

Answer 1

row._2.getValue("custid".getBytes(), "brid".getBytes())采用参数列族，限定符（列名），在您的情况下，您有2个列族和空字符串作为限定符。 由于custid:bird无效，所以返回null。

尝试打印一些内容： row._2.getValue("bird".getBytes(), "".getBytes())

如何从Spark中的Hbase表读取数据？

问题描述

1 个解决方案

解决方案1
0 2016-08-01 17:38:02

如何从Spark中的Hbase表读取数据？

问题描述

1 个解决方案

解决方案1 0 2016-08-01 17:38:02

解决方案1
0 2016-08-01 17:38:02