簡體 English 中英

Hadoop和Amazon EMR / S3中每個文件的單獨輸出

[英]Separate output per file in Hadoop and Amazon EMR/S3

原文 2014-04-19 16:51:23 9 1 hadoop/ amazon-web-services/ amazon-s3/ hadoop-streaming/ amazon-emr

我正在從事一個使用Hadoop分析書中單詞的項目。 我有一個類似於標准單詞計數示例的程序（請參見此處）。 該程序當前對目錄中所有文件中的所有單詞進行計數，並將其組合在一起。 但是，我還需要獲得一個單詞計數和每個處理過的文件的單獨輸出，或者至少需要一些能給我每個文件的單詞計數的東西。 我怎樣才能做到這一點？

1 個解決方案

似乎您在尋找MultipleOutputFormat

在link1處有一個典型的實現代碼，在link2處有完整的解釋和示例代碼。 只需將輸出文件映射為輸入文件名或任意名稱，每個組的文件將獲得“ / outputfolder / part-nnnnn”，名稱“ part”可以更改，其中nnnnn是與reduce任務關聯的分區ID。 不能回避，您必須在HDFS上重命名/合並這些文件。

在Hadoop / EMR中每個鍵在S3中輸出一個文件

[英]Outputting one file in S3 per key in Hadoop/EMR

Amazon EMR：S3中發現“無輸出”

[英]Amazon EMR: “no output” found in S3

EMR Hadoop處理整個S3文件

[英]EMR Hadoop processing whole S3 file

將中間Amazon EMR任務輸出寫入S3

[英]Write intermediate Amazon EMR task output to S3

Amazon EMR：使用S3的輸入和輸出運行Custom Jar

[英]Amazon EMR: running Custom Jar with input and output from S3

針對EMR上的Hadoop作業的S3文件的最佳文件大小？

[英]Optimal File Size of S3 Files for Hadoop Job on EMR?

在 Amazon EMR 上使用 Hadoop / s3 “無法執行 HTTP 請求：管道損壞”

[英]"Unable to execute HTTP Request: Broken Pipe" with Hadoop / s3 on Amazon EMR

使用Amazon S3存儲桶輸入和輸出在Amazon EMR上運行自定義JAR給出錯誤（文件系統錯誤）

[英]Running Custom JAR on Amazon EMR giving error ( Filesystem Error ) using Amazon S3 Bucket input and output

設置EMR后，如何在Data Pipeline中將文件從S3復制到Amazon EMR？

[英]How do I copy a file from S3 to Amazon EMR in Data Pipeline after EMR is provisioned?

Amazon Hadoop EMR和自定義輸入文件格式

[英]Amazon Hadoop EMR & custom input file format

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 在Hadoop / EMR中每個鍵在S3中輸出一個文件 Amazon EMR：S3中發現“無輸出” EMR Hadoop處理整個S3文件將中間Amazon EMR任務輸出寫入S3 Amazon EMR：使用S3的輸入和輸出運行Custom Jar 針對EMR上的Hadoop作業的S3文件的最佳文件大小？在 Amazon EMR 上使用 Hadoop / s3 “無法執行 HTTP 請求：管道損壞” 使用Amazon S3存儲桶輸入和輸出在Amazon EMR上運行自定義JAR給出錯誤（文件系統錯誤）設置EMR后，如何在Data Pipeline中將文件從S3復制到Amazon EMR？ Amazon Hadoop EMR和自定義輸入文件格式

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM