簡體 English 中英

檢查點后未使用新的spark.sql.shuffle.partitions值

[英]new spark.sql.shuffle.partitions value not used after checkpointing

原文 2018-03-03 05:40:16 4 1 apache-spark/ spark-structured-streaming

我有一個Spark的結構化流應用程序，該應用程序具有檢查點，可以在拼花中寫入輸出，並使用默認的spark.sql.shuffle.partitions =200。我需要更改shuffle分區，但不使用新值。 以下是重新啟動應用程序后檢查點偏移的內容：

{"batchWatermarkMs":1520054221000,"batchTimestampMs":1520054720003,"conf":{"spark.sql.shuffle.partitions":"200"}}

我是否需要在代碼中設置分區數，而不是使用--conf設置？

1 個解決方案

該編號從檢查點恢復，只有在刪除檢查點數據並以“干凈的狀態”重新啟動后，該數字才會更改。

這是有道理的，因為如果您有檢查點數據，Spark需要知道從多少個分區目錄中恢復以前的狀態。

spark.sql.shuffle.partitions的200個默認分區難題

[英]spark.sql.shuffle.partitions of 200 default partitions conundrum

無法使用 Spark Structured Streaming 覆蓋“spark.sql.shuffle.partitions”的默認值

[英]Unable to overwrite default value of "spark.sql.shuffle.partitions" with Spark Structured Streaming

spark.sql.shuffle.partitions 本地火花性能行為

[英]spark.sql.shuffle.partitions local spark performance behavior

從 Kafka 讀取 Spark 批處理作業的 spark.sql.shuffle.partitions 的最佳值

[英]Optimal value of spark.sql.shuffle.partitions for a Spark batch Job reading from Kafka

“spark.sql.shuffle.partitions”配置是否影響非 sql 洗牌？

[英]Is "spark.sql.shuffle.partitions" configuration affects non sql shuffling?

如何動態選擇spark.sql.shuffle.partitions

[英]How to dynamically choose spark.sql.shuffle.partitions

如何在 pyspark 中設置動態 spark.sql.shuffle.partitions？

[英]How to set dynamic spark.sql.shuffle.partitions in pyspark?

如何將“spark.sql.shuffle.partitions”設置為自動

[英]How to set "spark.sql.shuffle.partitions" to auto

spark.sql.shuffle.partitions 的最佳值應該是多少，或者在使用 Spark SQL 時我們如何增加分區？

[英]What should be the optimal value for spark.sql.shuffle.partitions or how do we increase partitions when using Spark SQL?

我們可以在AWS Glue中設置spark.sql.shuffle.partitions嗎？

[英]Can we set spark.sql.shuffle.partitions in AWS Glue?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 spark.sql.shuffle.partitions的200個默認分區難題無法使用 Spark Structured Streaming 覆蓋“spark.sql.shuffle.partitions”的默認值 spark.sql.shuffle.partitions 本地火花性能行為從 Kafka 讀取 Spark 批處理作業的 spark.sql.shuffle.partitions 的最佳值 “spark.sql.shuffle.partitions”配置是否影響非 sql 洗牌？如何動態選擇spark.sql.shuffle.partitions 如何在 pyspark 中設置動態 spark.sql.shuffle.partitions？如何將“spark.sql.shuffle.partitions”設置為自動 spark.sql.shuffle.partitions 的最佳值應該是多少，或者在使用 Spark SQL 時我們如何增加分區？我們可以在AWS Glue中設置spark.sql.shuffle.partitions嗎？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM