簡體 English 中英

HBase Scan基於特定的HFile作為根

[英]HBase Scan based on specific HFile(s) as roots

原文 2019-02-14 07:59:59 9 1 java/ mapreduce/ hbase/ hfile

是否有任何具有以下行為的掃描/過濾器API？

給定時間范圍，我希望掃描儀包含來自HFiles的數據超出范圍，包括在HFiles中的行鍵在范圍內。 我們的想法是掃描所有HFile的內存索引，但只從磁盤中獲取來自HFile的rowkeys的數據。

例如，如果HFile1在范圍和HFile2超出范圍，和rowkey1在任何數據HFile1 ，我想獲得的所有列rowkey1從HFile2為好，就好像它是在范圍內。 在另一方面，如果rowkey2包括在HFile2但不是在HFile1 ，索引掃描儀應該只是跳到下一行的關鍵。

用例是在最后X小時內加載已修改的整行（即使只在一列上），從而避免對冗余數據進行全面掃描或任何磁盤掃描。 這將集成到Spark / MR應用程序中，可能基於TableSnapshotInputFormat，所以我想我可以為HRegion，HStore或其他任何東西發送一些自定義代碼，如果有的話。

非常感謝

1 個解決方案

如果這是用例，

用例是在最后X小時內加載已修改的整行（即使只在一列上），避免了冗余數據的全掃描或任何磁盤掃描

為什么帶時間戳范圍的掃描不起作用？ HBase JAVA API org.apache.hadoop.hbase.client.Scan.setTimeRange(long, long)將時間范圍作為輸入，並且僅獲取在此時間范圍內修改的行。

如果您希望它更靈活，則應用KeyOnlyFilter()並獲取所有rowkeys。 稍后您可以根據行數進行批量Get 。

如何用rowkey的特定部分掃描HBase？

[英]How to scan HBase with specific part of rowkey?

通過HFile將數據加載到HBase中不起作用

[英]Load data via HFile into HBase not working

mapreduce，hbase和掃描

[英]mapreduce, hbase and scan

Hbase掃描超時

[英]Hbase scan timeout

Hbase反向掃描

[英]Hbase reverse scan

HBase掃描操作緩存

[英]HBase scan operation caching

為什么我不能從hbase.io.hfile包中導入類

[英]Why Cannot I import the class from hbase.io.hfile package

沒有其ID的HBase掃描值

[英]HBase scan values without their id

Hbase掃描返回已刪除的行

[英]Hbase scan is returning deleted rows

HBase多線程掃描真的很慢

[英]HBase Multithreaded Scan is really slow

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何用rowkey的特定部分掃描HBase？通過HFile將數據加載到HBase中不起作用 mapreduce，hbase和掃描 Hbase掃描超時 Hbase反向掃描 HBase掃描操作緩存為什么我不能從hbase.io.hfile包中導入類沒有其ID的HBase掃描值 Hbase掃描返回已刪除的行 HBase多線程掃描真的很慢

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM