简体   繁体   English

压缩Hadoop存档工具的输出

[英]Compress output of Hadoop Archive tool

I'm using Hadoop Archive for reduce number of files in my Hadoop cluster, but for data retention, I want to keep my data as long as possible. 我正在使用Hadoop Archive来减少Hadoop集群中的文件数量,但是为了保留数据,我希望尽可能长时间地保留数据。 Then the problem is Hadoop Archive not reduce folder size (my folder have multi-type of file, both small and large file, then not suitable for use Sequence File). 然后问题是Hadoop Archive没有减小文件夹大小(我的文件夹有多种类型的文件,无论是小文件还是大文件,那么不适合使用Sequence File)。

I used some option like -D mapreduce.compress.map.output=true -D mapred.map.ouput.compress.codec=org.apache.hadoop.io.compress.GzipCodec but it's not work. 我使用了一些选项,如-D mapreduce.compress.map.output=true -D mapred.map.ouput.compress.codec=org.apache.hadoop.io.compress.GzipCodec但它不起作用。

Does anyone know a way for compress output of Hadoop Archive, or suggest me someway to get both goal (compress size and reduce number of file). 有没有人知道压缩Hadoop Archive输出的方法,或者建议我得到两个目标(压缩大小和减少文件数)。

Any infomation is appreciate. 任何信息都很感激。 Thanks so much. 非常感谢。

您可以使用mapred compress并在压缩目录上运行har

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM