繁体 English 中英

收集在Hadoop的Reducer中排序的多个映射器的结果

[英]Gathering multiple mapper's result sorted at Reducer in Hadoop

原文 2016-04-01 05:47:40 8 1 java/ hadoop/ hadoop-streaming/ hadoop-partitioning/ bigdata

我有多个非常大的文件（将近500MB）作为我的MR程序的输入。 我将这些文件划分（分割）成相同大小的分区。 每个Mapper会获得一个文件的单个分区

映射器：键=（文件名，partition_number）和值=（分区的字符流）

我正在对mapper中的值（字符流）进行一些计算。 我想在一个化简器中收集与输入文件（对于所有partitons）相对应的结果。 因此，我想到了将reducer i / p键作为“文件名”。 但是映射器的输出必须在reducer中顺序收集。（例如[partition1 o / p + partition2 + ... + partitionN o / p]）

你能给我建议一下逻辑吗？ 谢谢。

1 个解决方案

您需要第二种排序。 有关示例，请参见https://vangjee.wordpress.com/2012/03/20/secondary-sorting-aka-sorting-values-in-hadoops-mapreduce-programming-paradigm/

在这种情况下”

主比较器比较[文件名，partition_number]
组比较器仅使用文件名
仅文件名分区程序

具有多种密钥类型的Hadoop MapReduce映射器和精简器

[英]Hadoop MapReduce mapper and reducer with multiple key types

Mapper和Reducer是Hadoop版本2中的接口吗？

[英]Mapper and Reducer are interfaces in Hadoop version 2?

Hadoop将变量传递给mapper和reducer

[英]Hadoop passing variables to mapper and reducer

Hadoop映射器和减速器输出不匹配

[英]Hadoop mapper and reducer output mismatch

Hadoop映射器直接写入到输出。（Reducer写入映射器的输出）

[英]Hadoop mapper writes directly to ouput. (Reducer writes mapper's output)

Reducer中的Hadoop MapReduce访问映射器输出编号

[英]Hadoop MapReduce access mapper output number in reducer

在hadoop中没有reducer的情况下限制MultipleOutput中的映射器数量

[英]Limit no of mapper in MultipleOutput without reducer in hadoop

Hadoop返回mapper的输出，而不是reducer

[英]Hadoop returns the output of mapper instead of reducer

如何在Hadoop 1.0.4中链接映射器/缩减器？

[英]How to chain mapper/reducer in Hadoop 1.0.4?

Hadoop映射器/减速器重复使用

[英]Hadoop mapper/reducer re-use

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 具有多种密钥类型的Hadoop MapReduce映射器和精简器 Mapper和Reducer是Hadoop版本2中的接口吗？ Hadoop将变量传递给mapper和reducer Hadoop映射器和减速器输出不匹配 Hadoop映射器直接写入到输出。（Reducer写入映射器的输出） Reducer中的Hadoop MapReduce访问映射器输出编号在hadoop中没有reducer的情况下限制MultipleOutput中的映射器数量 Hadoop返回mapper的输出，而不是reducer 如何在Hadoop 1.0.4中链接映射器/缩减器？ Hadoop映射器/减速器重复使用

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM