簡體   English   中英

hadoop reducer是否有輸入超時?

[英]Does hadoop reducer have a timeout for inputs?

我有一個Hadoop工作,我想在一個8節點Windows HDP群集上運行。 該作業有137000多個輸入,並且在大約3.5個小時內處理了84%至92%的地圖任務。 然后,reducer在0%處重新啟動,並且映射任務重新運行。 這項工作永遠不會完成。

我的問題是,reducer是否從dfs讀取映射輸出或塊導致超時,導致reducer重新啟動? 或者,如果減速器達到某種極限,它將產生一條錯誤消息,以幫助我確定原因。 我的第一個障礙是默認隊列僅允許100000個任務,但是該作業出錯並顯示一條消息,指出了這一點。

我正在使用的hadoop版本是您通過Microsoft HDInsight獲得的版本。 它似乎是Windows的hadoop 1.1.0快照(適用於Windows的Hortonworks Data Platform 1.0.1 Developer Preview)。 我設置屬性為客戶端任務提供8000mb的內存。 由於jobtracker是從Windows服務啟動時運行的,因此我無法確定VM實際啟動了多少內存。

您是否在地圖任務中使用了計數器? 您的地圖任務占用大量CPU嗎? 如果是,則需要使用計數器來確保Hadoop不會認為您的工作正在掛起,而是正在處理。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM