繁体   English   中英

在Apache Spark中,是否有连接RDD而不是并集?

[英]In Apache Spark, Is there concatenate RDD instead of a union?

rdd.union()和++都通过消除RDD中的重复对象来实现并集。 我认为这是连接两个具有不同元素的RDD的昂贵方法。 有什么选择?

rdd.union()和++都通过消除重复的对象来实现并集

你错了++

def ++(other: RDD[T]): RDD[T]

返回此RDD和另一个的联合。 任何相同的元素都会出现多次(使用.distinct()消除它们)

union

def union(other: RDD[T]): RDD[T]

返回此RDD和另一个的联合。 任何相同的元素都会出现多次(使用.distinct()消除它们)。

没有设置工会。

同样适用于Dataset.union

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM