繁体 English 中英

Spark合并更多分区

[英]Spark Coalesce More Partitions

原文 2016-06-02 16:53:04 3 1 apache-spark/ rdd/ coalesce

我有一个处理大量数据并将结果写入S3的spark作业。 在处理过程中，我可能有超过5000个分区。 在写入S3之前，我希望减少分区数，因为每个分区都写为文件。

在其他一些情况下，我在处理过程中可能只有50个分区。 如果由于性能原因我想要合并而不是重新分配会发生什么。

从文档中可以看出，只有当输出分区的数量小于输入时才会使用合并，但如果输出分区的数量不是，则会发生什么，它似乎不会导致错误？ 是否会导致数据不正确或出现性能问题？

我试图避免必须计算我的RDD，以确定我是否有比我的输出限制更多的分区，如果这样合并。

1 个解决方案

使用默认的PartitionCoalescer ，如果分区数大于当前分区数，并且您没有将shuffle设置为true则分区数保持不变。

coalesce与shuffle设置为true从另一方面相当于repartition具有相同的值numPartitions 。

合并时的 Spark 分区大小

[英]Spark partitions size on coalesce

spark shuffle 分区与合并

[英]spark shuffle partitions with coalesce

Spark 合并不会减少分区数

[英]Spark coalesce not reducing partitions count

在 Spark SQL 中通过 COALESCE 减少分区

[英]Reduce Partitions by COALESCE in Spark SQL

可以 Coalesce 增加 Spark DataFrame 的分区吗

[英]Can Coalesce increase partitions of Spark DataFrame

Spark中的分区越多越好吗？

[英]Are the more partitions the better in Spark?

spark的合并功能是否会尝试创建统一大小的分区？

[英]Does spark's coalesce function try to create partitions of uniform size?

在Spark上，Coalesce会重新分配分区还是只合并它们？

[英]On Spark, does Coalesce redistribute partitions or just merge them?

Spark任务多于分区数

[英]Spark tasks one more than number of partitions

为什么在减少分区数量时 spark dataframe 重新分区比合并更快？

[英]Why is spark dataframe repartition faster than coalesce when reducing number of partitions?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 合并时的 Spark 分区大小 spark shuffle 分区与合并 Spark 合并不会减少分区数在 Spark SQL 中通过 COALESCE 减少分区可以 Coalesce 增加 Spark DataFrame 的分区吗 Spark中的分区越多越好吗？ spark的合并功能是否会尝试创建统一大小的分区？在Spark上，Coalesce会重新分配分区还是只合并它们？ Spark任务多于分区数为什么在减少分区数量时 spark dataframe 重新分区比合并更快？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM