HBase 讀取：為了提高性能，如何使用 hbase java REST api 對 get 請求進行批處理

Question

我是 HBase REST API 的新手，並試圖找到一種方法，我可以通過 get 命令獲得一組 Id 的結果。 由於批處理將有助於提高我的代碼的性能，而不是為表的每個 id 發出 get 請求。

一些示例 Hbase java rest api 代碼會有所幫助。

提前致謝。

Answer 1

Result[] results = table.get(List<Get> gets)

做你正在尋找的。 您應該會看到巨大的性能改進。

如果您只想知道密鑰是否存在：

boolean[] exists = exists(List<Get> gets);

這可能比get更快，因為它只返回true或false 。

Answer 2

您應該能夠使用掃描儀（HBase 搜索 API）來實現它。 下面例如

Scan scan = new Scan();
scan.setTimeRange( lowerBound, upperBound );

 Call it for each Column
scan.addColumn //

scan.setCaching( 1000 ) // how many rows for caching that will be passed to scanners.
ResultScanner scanner = table.getScanner( scan );
Iterator< Result > iterator = scanner.iterator();

有很多文章可以獲得更多詳細信息，例如https://www.cloudera.com/documentation/enterprise/5-4-x/topics/admin_hbase_scanning.html

Answer 3

您可以為每個 ID 單獨執行一組Get請求。

curl -vi -X GET \
         -H "Accept: text/xml" \
         "http://example.com:20550/users/row1"

或者創建過濾器並使用指定的過濾器執行請求：

curl -vi -X PUT \
         -H "Accept: text/xml" \
         -H "Content-Type:text/xml" \
         -d @filter.txt \
         "http://example.com:20550/users/scanner/"

<Scanner batch="100">
  <filter>
    {
      "type": "PrefixFilter",
      "value": "row_id_starts_with"
    }
  </filter>
</Scanner>

有關 cloudera 文檔中 REST API 的更多信息： https ://www.cloudera.com/documentation/enterprise/5-9-x/topics/admin_hbase_rest_api.html

HBase 讀取：為了提高性能，如何使用 hbase java REST api 對 get 請求進行批處理

問題描述

3 個解決方案

解決方案1
2 2018-04-20 12:51:33

解決方案2
0 已采納 2017-05-22 20:48:43

解決方案3
0 2017-05-23 09:28:16

HBase 讀取：為了提高性能，如何使用 hbase java REST api 對 get 請求進行批處理

問題描述

3 個解決方案

解決方案1 2 2018-04-20 12:51:33

解決方案2 0 已采納 2017-05-22 20:48:43

解決方案3 0 2017-05-23 09:28:16

解決方案1
2 2018-04-20 12:51:33

解決方案2
0 已采納 2017-05-22 20:48:43

解決方案3
0 2017-05-23 09:28:16