[英]When running HBase on amazon EMR, why does /tmp folder is huge compared to the actual data?
我们在Amazon EMR上具有默认配置的hadoop + hbase集群,因此mapred.child.tmp
和hbase.tmp.dir
指向/tmp
。 我们的集群已经运行了一段时间,现在/tmp
为500Gb,而实际的/hbase
数据为/hbase
。
这种差异似乎太大了,我们是否应该定期删除一些/tmp
数据?
经过一番调查,我发现/tmp
数据的最大部分是由Amazon将Hbase自动备份到S3时失败的mapreduce任务创建的。 我们成功的mapreduce任务不会在/tmp
留下很多数据。
我们已决定禁用Amazon的自动备份,并使用Hbase工具导入/导出表来实施自己的备份脚本。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.