繁体 English 中英

使用CompositeInputFormat

[英]Using CompositeInputFormat

原文 2014-07-30 21:00:37 6 2 hadoop/ mapreduce/ hive/ apache-pig

我正在尝试使用CompositeInputFormat类通过hadoop实现地图端连接。 为此，我需要满足以下条件：

每个映射的输入必须以特定方式进行分区和排序。 每个输入数据集必须划分为相同数量的分区，并且必须按每个源中的相同键（联接键）进行排序。 私钥的所有记录都必须位于同一分区中，并且这是强制性的。

我需要创建一个mapreduce作业并执行它，只是为了满足此要求？ 为此，我需要创建“身份映射器和简化器”吗？ 还是有其他使用HIVE或PIG的方法？

谢谢

假设您为两个输入的预处理都设置了相同的化简器数量，那么使用Identity Mapper / Reducer就足够了。 默认情况下，它将使用HashPartiioner和WritableComparator对输入进行排序和处理。

只有在两个文件中都已经有加入键作为键的情况下，Identity Mapper / Reducer才起作用。

如果不是，则需要编写一个简单的映射，以将连接键作为输出的键，并将其传递给Identity Reducer。

[英]Using CompositeInputFormat - Map-side Join

[英]Hadoop File Splits : CompositeInputFormat : Inner Join

[英]Can't use CompositeInputFormat with Hadoop, throwing exception Expression is null

[英]Using Brisk or not?

[英]Using a combiner in hadoop streaming mapreduce (using mrjob)

[英]Connect to Cassandra using pig latin using java

[英]Using Hadoop in Java

[英]Sorting in Pig using order by

[英]Advantages of using Spark with Cassandra

[英]using a reducer slows the mapper

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用CompositeInputFormat-地图端连接 Hadoop 文件拆分：CompositeInputFormat：内部联接不能与Hadoop一起使用CompositeInputFormat，抛出异常Expression为null 是否使用Brisk？在hadoop流mapreduce中使用组合器（使用mrjob）使用Java使用Pig Latin连接到Cassandra 在Java中使用Hadoop 按顺序在Pig中排序在Cassandra中使用Spark的优势使用reducer会减慢映射器的速度

相关标签