繁体   English   中英

在hadoop中添加对Zip文件的支持

[英]Adding support for Zip files in hadoop

Hadoop默认情况下支持读取.gz压缩文件,我希望对.zip文件也具有类似的支持。 我应该能够使用hadoop -text命令读取zip文件的内容。

我正在寻找一种无需为zip文件实现inputformat和recordreader的方法。 我希望我的工作完全与输入文件的格式无关,无论数据是压缩还是未压缩,它都可以正常工作。 与for.gz文件类似。

我很遗憾地说,我只看到两种方法可以从“内部” hadoop中执行此操作,或者使用基于ZipInputStream的自定义输入格式和recordreader(您明确指定自己不感兴趣),或者通过检测.zip输入文件和在启动作业之前将其解压缩。

我个人会从hadoop外部执行此操作,然后在运行作业之前通过脚本转换为gzip(如果需要可拆分文件,则为LZO索引),但是您肯定已经想到了...

我也很想看看是否有人可以提出一个意外的答案。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM