我们在Amazon EMR上具有默认配置的hadoop + hbase集群,因此mapred.child.tmphbase.tmp.dir指向/tmp 我们的集群已经运行了一段时间,现在/tmp为500Gb,而实际的/hbase数据为/hbase

这种差异似乎太大了,我们是否应该定期删除一些/tmp数据?

#1楼 票数:1 已采纳

经过一番调查,我发现/tmp数据的最大部分是由Amazon将Hbase自动备份到S3时失败的mapreduce任务创建的。 我们成功的mapreduce任务不会在/tmp留下很多数据。

我们已决定禁用Amazon的自动备份,并使用Hbase工具导入/导出表来实施自己的备份脚本。

  ask by Julian Go translate from so

未解决问题?本站智能推荐:

1回复

从Amazon HBase读取数据

谁能建议我,是否可以使用org.apache.hadoop.conf.Configuration和org.apache.hadoop.hbase.client.HTablePool从Amazon hbase读取数据。 我们正在迁移到具有在其之上运行hbase的Amazon EMR框架。
1回复

WARN mapreduce.LoadIncrementalHFiles:跳过EMR上的非目录hdfs

我正在尝试使用Hbase中的mapreduce批量加载文本文件。 一切正常,但是当我在最后一步进行大容量加载时,我得到警告,并且我的mapreduce工作卡住了。 同一件事在cloudera上也起作用,但是当我在AWS EMR上运行时,出现此问题。 我怀疑配置有问题。 我没有明
1回复

使用 Phoenix 处理程序创建 Hive 表抛出 NoClassDefFoundError: org.apache.hadoop.hbase.security.SecurityInfo

我想在 emr 的 phoenix 表上创建 hive 表。 我面临NoClassDefFoundError: org.apache.hadoop.hbase.security.SecurityInfo 到目前为止我做了什么: 我按照https://phoenix.apache.org/h
1回复

如何在rails上的ruby中访问在Amazon EMR上运行的Hbase

任何人都可以帮我在ruby中以编程方式连接到Hbase(在Amazon EMR上运行)吗? 实际上,我想将批量数据导入到Amazon EMR上的Hbase列导向表中,并通过编程方式按查询类型检索具有聚合/组的相同数据。 我已经经历了https://github.com/aws/aws
3回复

在 HBase Amazon EMR 上生成 PHP Thrift 文件

我在正在运行的 HBase(亚马逊默认提供的 v 0.92)集群上安装了 Apache Thrift(我遵循了官方教程),但是当我到达需要生成所需的 php 文件( thrift --gen php hbase.thrift ),我在任何地方都找不到 hbase.thrift 文件。
2回复

Amazon EMR上的HBase群集,客户端错误:NoServerForRegionException

我正在尝试在Amazon EMR上设置测试集群。 在具有一个主节点和两个从节点的情况下,端口也将打开60000-65535,并且在主节点2181上也将打开。 hbase hbck 因此,区域服务器启动并运行,我的客户端可以连接到主节点上的Zookeeper实例: 但是在执
1回复

AWS EMR HBase批量加载

我使用Cloudera这篇文章中介绍的技术开发了Map Reduce程序来进行HBase批量加载: https : //blog.cloudera.com/blog/2013/09/how-to-use-hbase-bulk-loading-and-为什么/ 。 在我们之前的本地Cloud
1回复

Hadoop的Amazon EMR与MapR的EMR

我已经使用Spark + Hbase和Phoenix开发了我的应用程序。 我想优化运营成本。 因此,我一直在寻找使用MapR M7( https://aws.amazon.com/emr/mapr/ )的Apache HBase应用程序增强的可靠性。 仍然不知道为什么我需要MapR。 我