除了多線程之外，還可以從Spark 1.6，Scala 2.10.6進行HBase並發/並行掃描

Question

我有rowPrefixes Array("a", "b", ...)

我需要為每個rowPrefix查詢HBase（使用Nerdammer）。 我當前的解決方案是

case class Data(x: String)

val rowPrefixes = Array("a", "b", "c")

rowPrefixes.par
    .map( rowPrefix => {
          val rdd = sc.hbaseTable[Data]("tableName")
            .inColumnFamily("columnFamily")
            .withStartRow(rowPrefix)

          rdd
        })
    .reduce(_ union _)

我基本上是使用多線程（.par）加載多個rdd的，然后最后將它們全部合並。 有一個更好的方法嗎？ 除了nerdammer，我不介意使用其他庫。

此外，由於我正在將hbase讀入case類的RDD中，因此我擔心反射API線程安全問題。

Answer 1

我沒有使用過Nerdammer連接器，但是如果我們考慮您的4個前綴行鍵過濾器的示例，那么使用par並行性的數量將受到限制，集群可能會被利用不足，結果可能會很慢。

您可以檢查是否可以使用Nerdammer連接器實現以下目的，我已經使用了hbase-spark連接器（CDH），在以下方法中，行鍵前綴將在所有表分區上進行掃描，即所有表區域並行分布在整個群集中，可以更有效地利用可用資源（內核/ RAM），更重要的是可以利用分布式計算的功能。

val hbaseConf = HBaseConfiguration.create()
// set zookeeper quorum properties in hbaseConf

val hbaseContext = new HBaseContext(sc, hbaseConf)

val rowPrefixes = Array("a", "b", "c")
val filterList = new FilterList()

rowPrefixes.foreach { x => filterList.addFilter(new PrefixFilter(Bytes.toBytes(x))) }

var scan = new Scan()  

scan.setFilter(filterList)
scan.addFamily(Bytes.toBytes("myCF"));

val rdd = hbaseContext.hbaseRDD(TableName.valueOf("tableName"), scan)
rdd.mapPartitions(populateCaseClass)

在您的情況下，將進行全表掃描，但假設您有足夠的可用核心，並且par可以為rowPrefixes數組中的每個元素分配一個核心，那么只有4個分區會做大量工作。

希望這可以幫助。

除了多線程之外，還可以從Spark 1.6，Scala 2.10.6進行HBase並發/並行掃描

問題描述

1 個解決方案

解決方案1
0 已采納 2018-04-23 12:02:14

除了多線程之外，還可以從Spark 1.6，Scala 2.10.6進行HBase並發/並行掃描

問題描述

1 個解決方案

解決方案1 0 已采納 2018-04-23 12:02:14

解決方案1
0 已采納 2018-04-23 12:02:14