繁体 English 中英

用一百万次扫描运行hbase mapreduce作业有意义吗？

[英]Does it make sense to run an hbase mapreduce job with a million Scans?

原文 2014-02-11 21:56:29 0 1 hadoop/ mapreduce/ hbase

我在hbase中有一个数据集，该数据集足够大，要花几个小时才能对整个数据集运行mapreduce作业。 我希望能够使用预先计算的索引来分解数据：每天一次映射整个数据集并将其分解为多个索引：

所有用户样本的1％
参与特定A / B实验的所有用户
每晚预发布频道上的所有用户。
所有具有特定附加组件的用户（或本周我们感兴趣的任何条件）

我的想法是只存储相关记录的行ID列表，然后以后人们只能在这些行上执行很少的mapreduce工作。 但是1％的样本仍然是100万行数据，我不确定如何在一百万行的列表上构造mapreduce作业。

如果要由一百万个不同的Scan对象组成查询，那么使用initTableMapperJob（List scans）创建表映射器作业是否有意义？ 还有其他方法可以使我仍然可以将计算和I / O有效地分配给hbase集群吗？

1 个解决方案

不要进行一百万次扫描。 如果您有一百万个不连续的ID，则可以使用自定义输入格式在ID列表上运行map / reduce作业，以便将列表划分为合理数量的分区（我猜这是您的数量的4倍） m / r插槽，但该数字不基于任何值）。 这将为您提供一百万次获取操作，这可能比一百万次扫描要好。

如果您有幸拥有更合理数量的连续范围，那么扫描将比直接获取更好

HBase mapreduce作业-多次扫描-如何设置每次扫描的表

[英]HBase mapreduce job - Multiple scans - How to set the table of each Scan

HBase多表扫描作业

[英]HBase multiple table scans for the job

即使没有任何意义，如何将 Hadoop mapreduce 作业实现为非 map/reduce？

[英]How to implement Hadoop mapreduce job as non map/reduce even if does not make any sense?

HBase mapreduce作业如何与服务器通信？（新手问题）

[英]How does HBase mapreduce job communicate with server? (newbie question)

在表上运行MapReduce时，HBase MapReduce如何读取版本？

[英]How may versions does HBase MapReduce reads when MapReduce is run on a table ?

在哪里运行 MapReduce 作业

[英]Where to run MapReduce Job

HBase MapReduce作业：所有列值均为空

[英]Hbase mapreduce job: all column values are null

使用MapReduce作业删除HBase批量删除

[英]HBase bulk delete using MapReduce job

运行HBase MapReduce作业时出现NullPoinerEcxeption

[英]NullPoinerEcxeption while running HBase MapReduce Job

读取hbase表时挂起Mapreduce作业

[英]Hanging Mapreduce job while reading hbase tables

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 HBase mapreduce作业-多次扫描-如何设置每次扫描的表 HBase多表扫描作业即使没有任何意义，如何将 Hadoop mapreduce 作业实现为非 map/reduce？ HBase mapreduce作业如何与服务器通信？（新手问题）在表上运行MapReduce时，HBase MapReduce如何读取版本？在哪里运行 MapReduce 作业 HBase MapReduce作业：所有列值均为空使用MapReduce作业删除HBase批量删除运行HBase MapReduce作业时出现NullPoinerEcxeption 读取hbase表时挂起Mapreduce作业

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM