繁体   English   中英

带有zip输入文件的Hadoop流

[英]Hadoop streaming with zip input files

我正在尝试运行流作业,其中输入文件是zip文件中的csv。 我尝试使用此方法 ,但是它似乎不适用于CDH4(我得到了错误class com.cotdp.hadoop.ZipFileInputFormat not org.apache.hadoop.mapred.InputFormat

有人知道我可以使用输入文件阅读器与zip文件进行流传输吗? 如果可能的话,我正在寻找一个多文件阅读器(可以给其顶层目录)。

我最终写了zipstream

请注意,仅处理zip中的第一个文件,稍后我可能会添加对多个文件的支持。

有两种hadoop API用于输入格式。 mapred.InputFormat和mapreduce.InputFormat。

mapreduce是较新的API,如果可以的话,应该使用该API。

我将检查ZipInputFormat实际实现了哪种InputFormat。 如果实现了mapreduce版本,则需要将作业移至第二个API。

背景知识:在较早的Hadoop版本中,“ mapred”已贬值,而采用了“ mapreduce”,这是一种更新,更快,更清洁的实现。 不幸的是,这个新API并未包含旧API的所有功能,因此在Hadoop的最新版本中,已恢复了“ mapred”,现在有两个API基本上可以完成相同的工作。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM