[英]Hadoop mapper task detailed execution time
對於某個Hadoop MapReduce映射器任務,我已經有了該映射器任務的完整執行時間。 通常,映射器包括三個步驟:(1)從HDFS或其他來源(如Amazon S3)讀取輸入; (2)處理輸入數據; (3)將中間結果寫入本地磁盤。 現在,我想知道是否有可能知道每個步驟花費的時間。
我的目的是得到以下結果:(1)映射器從HDFS或S3讀取輸入需要多長時間。 結果僅表明映射器可以讀取的速度。 它更像是映射器的I / O性能。 (2)映射器處理這些數據需要花費多長時間,這更像是任務的計算能力。
有人對如何獲得這些結果有任何想法嗎?
謝謝。
只需實現一個不發出任何東西的只讀映射器。 然后,這將指示讀取(但不處理)每個拆分需要多長時間。
您可以進一步定義運行時(通過作業屬性)傳遞給作業的變量,該變量允許您執行以下操作之一(例如,針對Enum對象解析變量,然后打開值):
當然,這假定您有權訪問映射器代碼。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.