簡體   English   中英

Mapper組合器修補程序排序/排序

[英]Order of Mapper Combiner patitioner shuffle/sort

我在第206頁的《定額指南:Hadoop》中有以下內容。

在將數據寫入磁盤之前,線程首先將數據划分為與最終將要發送到這些約化器的分區。 在每個分區中,后台線程通過鍵執行內存中排序,如果有組合器功能,它將在排序的輸出上運行。 運行組合器功能可實現更緊湊的映射輸出,因此更少的數據可寫入本地磁盤並傳輸到reducer。

因此,有了這種理解,我可以將順序排序為Mapper,分區器,隨機播放/排序,Combiner嗎?

我為此寫了一篇很好的文章:http: //0x0fff.com/hadoop-mapreduce-comprehensive-description/一般來說,您是對的,但特別是還有很多其他情況-某些情況下可能會省略合並器記錄,對於其中一些記錄可能會運行很多次,甚至可以使合並器在reducer之前在reduce端啟動。 所以您總體上是正確的,但是事情要復雜得多

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM