繁体 English 中英

检查点后未使用新的spark.sql.shuffle.partitions值

[英]new spark.sql.shuffle.partitions value not used after checkpointing

原文 2018-03-03 05:40:16 3 1 apache-spark/ spark-structured-streaming

我有一个Spark的结构化流应用程序，该应用程序具有检查点，可以在拼花中写入输出，并使用默认的spark.sql.shuffle.partitions =200。我需要更改shuffle分区，但不使用新值。 以下是重新启动应用程序后检查点偏移的内容：

{"batchWatermarkMs":1520054221000,"batchTimestampMs":1520054720003,"conf":{"spark.sql.shuffle.partitions":"200"}}

我是否需要在代码中设置分区数，而不是使用--conf设置？

1 个解决方案

该编号从检查点恢复，只有在删除检查点数据并以“干净的状态”重新启动后，该数字才会更改。

这是有道理的，因为如果您有检查点数据，Spark需要知道从多少个分区目录中恢复以前的状态。

spark.sql.shuffle.partitions的200个默认分区难题

[英]spark.sql.shuffle.partitions of 200 default partitions conundrum

无法使用 Spark Structured Streaming 覆盖“spark.sql.shuffle.partitions”的默认值

[英]Unable to overwrite default value of "spark.sql.shuffle.partitions" with Spark Structured Streaming

spark.sql.shuffle.partitions 本地火花性能行为

[英]spark.sql.shuffle.partitions local spark performance behavior

从 Kafka 读取 Spark 批处理作业的 spark.sql.shuffle.partitions 的最佳值

[英]Optimal value of spark.sql.shuffle.partitions for a Spark batch Job reading from Kafka

“spark.sql.shuffle.partitions”配置是否影响非 sql 洗牌？

[英]Is "spark.sql.shuffle.partitions" configuration affects non sql shuffling?

如何动态选择spark.sql.shuffle.partitions

[英]How to dynamically choose spark.sql.shuffle.partitions

如何在 pyspark 中设置动态 spark.sql.shuffle.partitions？

[英]How to set dynamic spark.sql.shuffle.partitions in pyspark?

如何将“spark.sql.shuffle.partitions”设置为自动

[英]How to set "spark.sql.shuffle.partitions" to auto

spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时我们如何增加分区？

[英]What should be the optimal value for spark.sql.shuffle.partitions or how do we increase partitions when using Spark SQL?

我们可以在AWS Glue中设置spark.sql.shuffle.partitions吗？

[英]Can we set spark.sql.shuffle.partitions in AWS Glue?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 spark.sql.shuffle.partitions的200个默认分区难题无法使用 Spark Structured Streaming 覆盖“spark.sql.shuffle.partitions”的默认值 spark.sql.shuffle.partitions 本地火花性能行为从 Kafka 读取 Spark 批处理作业的 spark.sql.shuffle.partitions 的最佳值 “spark.sql.shuffle.partitions”配置是否影响非 sql 洗牌？如何动态选择spark.sql.shuffle.partitions 如何在 pyspark 中设置动态 spark.sql.shuffle.partitions？如何将“spark.sql.shuffle.partitions”设置为自动 spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时我们如何增加分区？我们可以在AWS Glue中设置spark.sql.shuffle.partitions吗？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM