簡體   English   中英

Hadoop映射器任務詳細執行時間

[英]Hadoop mapper task detailed execution time

對於某個Hadoop MapReduce映射器任務,我已經有了該映射器任務的完整執行時間。 通常,映射器包括三個步驟:(1)從HDFS或其他來源(如Amazon S3)讀取輸入; (2)處理輸入數據; (3)將中間結果寫入本地磁盤。 現在,我想知道是否有可能知道每個步驟花費的時間。

我的目的是得到以下結果:(1)映射器從HDFS或S3讀取輸入需要多長時間。 結果僅表明映射器可以讀取的速度。 它更像是映射器的I / O性能。 (2)映射器處理這些數據需要花費多長時間,這更像是任務的計算能力。

有人對如何獲得這些結果有任何想法嗎?

謝謝。

只需實現一個不發出任何東西的只讀映射器。 然后,這將指示讀取(但不處理)每個拆分需要多長時間。

您可以進一步定義運行時(通過作業屬性)傳遞給作業的變量,該變量允許您執行以下操作之一(例如,針對Enum對象解析變量,然后打開值):

  • 剛讀
  • 只是讀取和處理(但不寫/發射任何東西)
  • 做好一切

當然,這假定您有權訪問映射器代碼。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM