繁体 English 中英

Hadoop和Amazon EMR / S3中每个文件的单独输出

[英]Separate output per file in Hadoop and Amazon EMR/S3

原文 2014-04-19 16:51:23 7 1 hadoop/ amazon-web-services/ amazon-s3/ hadoop-streaming/ amazon-emr

我正在从事一个使用Hadoop分析书中单词的项目。 我有一个类似于标准单词计数示例的程序（请参见此处）。 该程序当前对目录中所有文件中的所有单词进行计数，并将其组合在一起。 但是，我还需要获得一个单词计数和每个处理过的文件的单独输出，或者至少需要一些能给我每个文件的单词计数的东西。 我怎样才能做到这一点？

1 个解决方案

似乎您在寻找MultipleOutputFormat

在link1处有一个典型的实现代码，在link2处有完整的解释和示例代码。 只需将输出文件映射为输入文件名或任意名称，每个组的文件将获得“ / outputfolder / part-nnnnn”，名称“ part”可以更改，其中nnnnn是与reduce任务关联的分区ID。 不能回避，您必须在HDFS上重命名/合并这些文件。

在Hadoop / EMR中每个键在S3中输出一个文件

[英]Outputting one file in S3 per key in Hadoop/EMR

Amazon EMR：S3中发现“无输出”

[英]Amazon EMR: “no output” found in S3

EMR Hadoop处理整个S3文件

[英]EMR Hadoop processing whole S3 file

将中间Amazon EMR任务输出写入S3

[英]Write intermediate Amazon EMR task output to S3

Amazon EMR：使用S3的输入和输出运行Custom Jar

[英]Amazon EMR: running Custom Jar with input and output from S3

针对EMR上的Hadoop作业的S3文件的最佳文件大小？

[英]Optimal File Size of S3 Files for Hadoop Job on EMR?

在 Amazon EMR 上使用 Hadoop / s3 “无法执行 HTTP 请求：管道损坏”

[英]"Unable to execute HTTP Request: Broken Pipe" with Hadoop / s3 on Amazon EMR

使用Amazon S3存储桶输入和输出在Amazon EMR上运行自定义JAR给出错误（文件系统错误）

[英]Running Custom JAR on Amazon EMR giving error ( Filesystem Error ) using Amazon S3 Bucket input and output

设置EMR后，如何在Data Pipeline中将文件从S3复制到Amazon EMR？

[英]How do I copy a file from S3 to Amazon EMR in Data Pipeline after EMR is provisioned?

Amazon Hadoop EMR和自定义输入文件格式

[英]Amazon Hadoop EMR & custom input file format

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 在Hadoop / EMR中每个键在S3中输出一个文件 Amazon EMR：S3中发现“无输出” EMR Hadoop处理整个S3文件将中间Amazon EMR任务输出写入S3 Amazon EMR：使用S3的输入和输出运行Custom Jar 针对EMR上的Hadoop作业的S3文件的最佳文件大小？在 Amazon EMR 上使用 Hadoop / s3 “无法执行 HTTP 请求：管道损坏” 使用Amazon S3存储桶输入和输出在Amazon EMR上运行自定义JAR给出错误（文件系统错误）设置EMR后，如何在Data Pipeline中将文件从S3复制到Amazon EMR？ Amazon Hadoop EMR和自定义输入文件格式

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM