繁体   English   中英

Hadoop和Amazon EMR / S3中每个文件的单独输出

[英]Separate output per file in Hadoop and Amazon EMR/S3

我正在从事一个使用Hadoop分析书中单词的项目。 我有一个类似于标准单词计数示例的程序( 请参见此处 )。 该程序当前对目录中所有文件中的所有单词进行计数,并将其组合在一起。 但是,我还需要获得一个单词计数和每个处理过的文件的单独输出,或者至少需要一些能给我每个文件的单词计数的东西。 我怎样才能做到这一点?

似乎您在寻找MultipleOutputFormat

link1处有一个典型的实现代码,在link2处有完整的解释和示例代码。 只需将输出文件映射为输入文件名或任意名称,每个组的文件将获得“ / outputfolder / part-nnnnn”,名称“ part”可以更改,其中nnnnn是与reduce任务关联的分区ID。 不能回避,您必须在HDFS上重命名/合并这些文件。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM