繁体   English   中英

hadoop mapreduce流中的多个文件输出

[英]multiple file output in hadoop mapreduce streaming

我正在使用hadoop map并减少程序。 我需要读取多个文件并将其输出到多个文件

Input \  one.txt 
         two.txt 
         three.txt 

Output \ 
         one_out.txt
         two_out.txt

我需要得到这样的东西。 我怎样才能做到这一点。

请帮助我

谢谢

  • 如果文件很小,则可以简单地使用FileInputFormat ,并且hadoop将在内部为每个文件生成一个单独的mapper任务 ,这最终将为相应的输入文件生成输出文件(如果不涉及reducer)。
  • 如果文件很大,则需要编写custominput格式,并指定isSplittable(false) 它将确保hadoop不会在映射器之间拆分文件,并且不会在每个输入文件中生成多个输出文件

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM