繁体 English 中英

在Apache Spark中，是否有连接RDD而不是并集？

[英]In Apache Spark, Is there concatenate RDD instead of a union?

原文 2018-02-02 19:46:16 7 1 apache-spark

rdd.union（）和++都通过消除RDD中的重复对象来实现并集。 我认为这是连接两个具有不同元素的RDD的昂贵方法。 有什么选择？

rdd.union（）和++都通过消除重复的对象来实现并集

你错了++

def ++(other: RDD[T]): RDD[T]

返回此RDD和另一个的联合。 任何相同的元素都会出现多次（使用.distinct（）消除它们）

和union ：

def union(other: RDD[T]): RDD[T]

返回此RDD和另一个的联合。 任何相同的元素都会出现多次（使用.distinct（）消除它们）。

没有设置工会。

同样适用于Dataset.union 。

在Apache Spark中，为什么RDD.union不保留分区器？

[英]In Apache Spark, why does RDD.union not preserve the partitioner?

[英]Union of RDD IN SPARK

[英]Spark: How to union a List<RDD> to RDD

[英]Apache Spark RDD - not updating

[英]Apache Spark RDD

[英]Apache Spark Rdd persist

[英]Apache Spark RDD Split “|”

[英]Apache Spark RDD Workflow

[英]Apache Spark RDD substitution

[英]RDD and partition in Apache Spark

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 在Apache Spark中，为什么RDD.union不保留分区器？ RDD联盟火花 Spark：如何合并列表 <RDD> 到RDD Apache Spark RDD - 不更新 Apache Spark RDD Apache Spark Rdd持续存在 Apache Spark RDD拆分“|” Apache Spark RDD工作流程 Apache Spark RDD替代 Apache Spark 中的 RDD 和分区

相关标签