[英]Order of Mapper Combiner patitioner shuffle/sort
我在第206页的《定额指南:Hadoop》中有以下内容。
在将数据写入磁盘之前,线程首先将数据划分为与最终将要发送到这些约化器的分区。 在每个分区中,后台线程通过键执行内存中排序,如果有组合器功能,它将在排序的输出上运行。 运行组合器功能可实现更紧凑的映射输出,因此更少的数据可写入本地磁盘并传输到reducer。
因此,有了这种理解,我可以将顺序排序为Mapper,分区器,随机播放/排序,Combiner吗?
我为此写了一篇很好的文章:http: //0x0fff.com/hadoop-mapreduce-comprehensive-description/一般来说,您是对的,但特别是还有很多其他情况-某些情况下可能会省略合并器记录,对于其中一些记录可能会运行很多次,甚至可以使合并器在reducer之前在reduce端启动。 所以您总体上是正确的,但是事情要复杂得多
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.