繁体 English 中英

两个分区数据帧之间的 Spark 共置连接

[英]Spark colocated join between two partitioned dataframes

原文 2017-03-23 19:21:47 0 1 scala/ join/ apache-spark/ apache-spark-sql/ spark-dataframe

对于 Spark 1.6.0 中两个DataFrames之间的以下连接

val df0Rep = df0.repartition(32, col("a")).cache
val df1Rep = df1.repartition(32, col("a")).cache
val dfJoin = df0Rep.join(df1Rep, "a")
println(dfJoin.count)

这是否不仅共同分区而且还共同定位？ 我知道对于 RDD，如果使用相同的分区器并在相同的操作中混洗，则连接将位于同一位置。 但是数据帧呢？ 谢谢你。

1 个解决方案

[ https://medium.com/@achilleus/https-medium-com-joins-in-apache-spark-part-3-1d40c1e51e1c]

根据上面提供的文章链接Sort-Merge join是默认的join，想补充一点

对于 Sort-Merge 连接的理想性能，重要的是所有具有相同连接键值的行在同一分区中可用。 这保证了执行者之间臭名昭著的分区交换（洗牌）。 并置分区可以避免不必要的数据洗牌。 数据需要在连接键中均匀分布。 连接键的数量足够独特，以便它们可以在集群中均匀分布，以从可用分区实现最大并行度

两个数据帧之间的通用联接spark / scala

[英]generic join between two dataframes spark/scala

如何在 Spark 中正确连接两个数据帧

[英]How to correctly join two dataframes in Spark

如何在 Scala 和 Apache Spark 中加入两个 DataFrame？

[英]How to join two DataFrames in Scala and Apache Spark?

在火花 scala 中随机加入两个数据帧

[英]Join two dataframes with random in spark scala

使用正则表达式在 spark 中连接两个数据帧

[英]Using regexp to join two dataframes in spark

在 Spark 中加入具有不同记录和大小的两个数据帧

[英]Join two dataframes with different records and size in Spark

Spark在best.startswith match上加入两个数据帧

[英]Spark join two dataframes on best .startswith match

通过评估表达式连接两个 spark 数据帧

[英]Join two spark dataframes by evaluating an expression

有没有办法将两个火花数据框与每行的自定义连接连接起来

[英]Is there a way to join two spark dataframes with custom join for each row

在Spark中联接数据框

[英]Join Dataframes in Spark

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 两个数据帧之间的通用联接spark / scala 如何在 Spark 中正确连接两个数据帧如何在 Scala 和 Apache Spark 中加入两个 DataFrame？在火花 scala 中随机加入两个数据帧使用正则表达式在 spark 中连接两个数据帧在 Spark 中加入具有不同记录和大小的两个数据帧 Spark在best.startswith match上加入两个数据帧通过评估表达式连接两个 spark 数据帧有没有办法将两个火花数据框与每行的自定义连接连接起来在Spark中联接数据框

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM