繁体 English 中英

如何在Spark中创建更多分区而不会导致混乱

[英]How can I make more partitions in Spark without causing a shuffle

原文 2016-10-21 14:22:04 7 1 scala/ apache-spark

基本上我的用例是这样的，在第一阶段，我只能有几个分区，因为每个任务运行一个C程序，需要多达10 GB的内存。 但是，我稍后会使用RangePartitioner。 但是在前一阶段中只有很少的分区，RangePartitioner在执行后缀时会抛出内存错误。 这是一个众所周知的事实，当你的分区太少时，Spark可以在shuffle中抛出内存错误。

现在，我想要的是简单地将已存在的分区划分为更多分区。 基本上，与Spark中的联合相反。 如果我使用分区器，例如HashPartitioner，它显然会导致shuffle，我想避免。 那么，我怎样才能做到这一点？

1 个解决方案

不是在这个时候。 您可以追踪相关的JIRA门票： https ： //issues.apache.org/jira/browse/SPARK-5997

Spark：增加分区数量而不会导致shuffle？

[英]Spark: increase number of partitions without causing a shuffle?

Spark SQL Shuffle 分区的区别

[英]Difference in Spark SQL Shuffle partitions

spark shuffle partitions 和 partition by tag 如何相互配合

[英]How spark shuffle partitions and partition by tag along with each other

Spark Join *无*洗牌

[英]Spark join *without* shuffle

spark.sql.shuffle.partitions 本地火花性能行为

[英]spark.sql.shuffle.partitions local spark performance behavior

如何在不产生 .rdd 成本的情况下检查 Spark DataFrame 的分区数

[英]How to check the number of partitions of a Spark DataFrame without incurring the cost of .rdd

将 Spark 2.4.5 升级到 Spark 3.3.2 导致 Shuffle 失败

[英]Upgrading Spark 2.4.5 to Spark 3.3.2 Causing Shuffle Failures

如何在Spark数据帧中混洗行？

[英]How to shuffle the rows in a Spark dataframe?

无法使用 Spark Structured Streaming 覆盖“spark.sql.shuffle.partitions”的默认值

[英]Unable to overwrite default value of "spark.sql.shuffle.partitions" with Spark Structured Streaming

如何使这个方法更加Scalalicious

[英]How can I make this method more Scalalicious

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Spark：增加分区数量而不会导致shuffle？ Spark SQL Shuffle 分区的区别 spark shuffle partitions 和 partition by tag 如何相互配合 Spark Join *无*洗牌 spark.sql.shuffle.partitions 本地火花性能行为如何在不产生 .rdd 成本的情况下检查 Spark DataFrame 的分区数将 Spark 2.4.5 升级到 Spark 3.3.2 导致 Shuffle 失败如何在Spark数据帧中混洗行？无法使用 Spark Structured Streaming 覆盖“spark.sql.shuffle.partitions”的默认值如何使这个方法更加Scalalicious

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM