繁体 English 中英

如何在MapReduce作业中使用HBase二级索引表作为输入？

[英]How to use a HBase secondary index table as and input in a MapReduce Job?

原文 2019-04-23 13:18:49 6 1 hadoop/ mapreduce/ hbase

我是HBase的新手，我有一个主表，其中包含rowkey = id-YYYYMMDD，以及一个带有rowkey = YYYYMMDD-id的二级索引表和一个带有主表中rowkey的列。 我将在不久的将来拥有大约100万个ID，我将需要创建一个MapReduce作业来总结给定日期的ID（YYYYMMDD）。

如何将二级索引表传递给mapreduce作业，以便在主表中运行相应的“get（rowkey）”以获取列并对数据进行sumarize？

1 个解决方案

你有2个选择：

首先，在索引表上运行扫描。 扫描将有STARTROW和stopRow（例如，“20190401”和“20190402”），所以它会扫描一个连续的密钥空间区域，并从主表中收集的ID。 时间复杂度将为O（M），其中M是给定批次中的项目数。 然后使用Get通过ID请求主表中的数据。
由于您将日期作为主表键的一部分，您可以使用键过滤进行MapReduce扫描，该过滤将在O（N / P）中运行，其中N是表中的总行数，P是并行度您的群集。

HBase表作为MapReduce输入吗？

[英]HBase table as MapReduce input?

将数据同步到HBase / HDFS并将其用作MapReduce作业的输入

[英]Synchronize data to HBase/HDFS and use it as input to MapReduce job

HBase mapreduce作业-多次扫描-如何设置每次扫描的表

[英]HBase mapreduce job - Multiple scans - How to set the table of each Scan

如何使用MapReduce将CSV导入HBASE表

[英]How to import a CSV into HBASE table using MapReduce

如何给输出一个mapreduce作业作为另一个mapreduce作业的输入？

[英]How to give output one mapreduce job as input of another mapreduce job?

HBase mapreduce作业如何与服务器通信？（新手问题）

[英]How does HBase mapreduce job communicate with server? (newbie question)

使用某种数据类型作为 MapReduce 作业的输入。

[英]Use some datatype as input for a MapReduce job.

使用HBase表作为MapReduce源

[英]Using an HBase table as MapReduce source

Mapfile作为MapReduce作业的输入

[英]Mapfile as a input to a MapReduce job

HBase MapReduce作业：所有列值均为空

[英]Hbase mapreduce job: all column values are null

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 HBase表作为MapReduce输入吗？将数据同步到HBase / HDFS并将其用作MapReduce作业的输入 HBase mapreduce作业-多次扫描-如何设置每次扫描的表如何使用MapReduce将CSV导入HBASE表如何给输出一个mapreduce作业作为另一个mapreduce作业的输入？ HBase mapreduce作业如何与服务器通信？（新手问题）使用某种数据类型作为 MapReduce 作业的输入。使用HBase表作为MapReduce源 Mapfile作为MapReduce作业的输入 HBase MapReduce作业：所有列值均为空

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM