繁体   English   中英

Mapper组合器修补程序排序/排序

[英]Order of Mapper Combiner patitioner shuffle/sort

我在第206页的《定额指南:Hadoop》中有以下内容。

在将数据写入磁盘之前,线程首先将数据划分为与最终将要发送到这些约化器的分区。 在每个分区中,后台线程通过键执行内存中排序,如果有组合器功能,它将在排序的输出上运行。 运行组合器功能可实现更紧凑的映射输出,因此更少的数据可写入本地磁盘并传输到reducer。

因此,有了这种理解,我可以将顺序排序为Mapper,分区器,随机播放/排序,Combiner吗?

我为此写了一篇很好的文章:http: //0x0fff.com/hadoop-mapreduce-comprehensive-description/一般来说,您是对的,但特别是还有很多其他情况-某些情况下可能会省略合并器记录,对于其中一些记录可能会运行很多次,甚至可以使合并器在reducer之前在reduce端启动。 所以您总体上是正确的,但是事情要复杂得多

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM