簡體   English   中英

Hadoop和Amazon EMR / S3中每個文件的單獨輸出

[英]Separate output per file in Hadoop and Amazon EMR/S3

我正在從事一個使用Hadoop分析書中單詞的項目。 我有一個類似於標准單詞計數示例的程序( 請參見此處 )。 該程序當前對目錄中所有文件中的所有單詞進行計數,並將其組合在一起。 但是,我還需要獲得一個單詞計數和每個處理過的文件的單獨輸出,或者至少需要一些能給我每個文件的單詞計數的東西。 我怎樣才能做到這一點?

似乎您在尋找MultipleOutputFormat

link1處有一個典型的實現代碼,在link2處有完整的解釋和示例代碼。 只需將輸出文件映射為輸入文件名或任意名稱,每個組的文件將獲得“ / outputfolder / part-nnnnn”,名稱“ part”可以更改,其中nnnnn是與reduce任務關聯的分區ID。 不能回避,您必須在HDFS上重命名/合並這些文件。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM