繁体   English   中英

使用CompositeInputFormat

[英]Using CompositeInputFormat

我正在尝试使用CompositeInputFormat类通过hadoop实现地图端连接。 为此,我需要满足以下条件:

每个映射的输入必须以特定方式进行分区和排序。 每个输入数据集必须划分为相同数量的分区,并且必须按每个源中的相同键(联接键)进行排序。 私钥的所有记录都必须位于同一分区中,并且这是强制性的。

我需要创建一个mapreduce作业并执行它,只是为了满足此要求? 为此,我需要创建“身份映射器和简化器”吗? 还是有其他使用HIVE或PIG的方法?

谢谢

假设您为两个输入的预处理都设置了相同的化简器数量,那么使用Identity Mapper / Reducer就足够了。 默认情况下,它将使用HashPartiioner和WritableComparator对输入进行排序和处理。

只有在两个文件中都已经有加入键作为键的情况下,Identity Mapper / Reducer才起作用。

如果不是,则需要编写一个简单的映射,以将连接键作为输出的键,并将其传递给Identity Reducer。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM