簡體   English   中英

如何在Hadoop map / reduce作業輸出文件中過濾鍵或值?

[英]How to filter keys or values in Hadoop map/reduce job output file?

通常,Hadoop map / reduce作業會生成寫入作業輸出文件的鍵值對列表(使用OutputFormat類)。 很少,鍵和值都很有用,通常鍵或值都包含所需信息。

是否有一個選項(在客戶端)來抑制輸出文件中的鍵或抑制輸出文件中的值? 如果我只想為一個特定的工作做這個,我可以創建新的OutputFormat實現,忽略鍵或值。 但我需要可以重復使用的通用解決方案。

編輯:我可能不清楚我的意思是“我需要可以重復使用的通用解決方案。” 讓我解釋一下這個例子:

假設我有很多准備好的MapperReducerOutputFormats類。 我想將它們組合到不同的“作業”並在不同的輸入文件上運行這些“作業”以生成各種輸出文件。 在某些情況下(對於某些作業)我需要抑制鍵,因此它們不會寫入輸出文件。 我不想改變我的映射器的代碼,減少輸出格式 - 他們有太多的東西要做。 我需要一些通用的解決方案,不需要更改給定的映射器,縮減器或輸出格式的代碼。 我怎么做?

沒有理由不能將hadoop流程中的最后一步配置為將NullWritable寫為鍵或值。 您不應該期望該文件在任何后續的map reduce步驟中都有用。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM