繁体   English   中英

在亚马逊EMR上运行HBase时,为什么/ tmp文件夹与实际数据相比很大?

[英]When running HBase on amazon EMR, why does /tmp folder is huge compared to the actual data?

我们在Amazon EMR上具有默认配置的hadoop + hbase集群,因此mapred.child.tmphbase.tmp.dir指向/tmp 我们的集群已经运行了一段时间,现在/tmp为500Gb,而实际的/hbase数据为/hbase

这种差异似乎太大了,我们是否应该定期删除一些/tmp数据?

经过一番调查,我发现/tmp数据的最大部分是由Amazon将Hbase自动备份到S3时失败的mapreduce任务创建的。 我们成功的mapreduce任务不会在/tmp留下很多数据。

我们已决定禁用Amazon的自动备份,并使用Hbase工具导入/导出表来实施自己的备份脚本。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM