spark.sql.shuffle.partitions 和 spark.default.parallelism 有什么區別？

Question

spark.sql.shuffle.partitions和spark.default.parallelism之間有什么區別？

我嘗試在SparkSQL中設置它們，但是第二階段的任務號始終是 200。

Answer 1

從這里的答案來看， spark.sql.shuffle.partitions配置了混洗數據以進行連接或聚合時使用的分區數。

spark.default.parallelism是RDD由join 、 reduceByKey和parallelize等轉換返回的默認分區數，當用戶未明確設置時。 請注意， spark.default.parallelism似乎只適用於原始RDD ，在處理數據幀時會被忽略。

如果您正在執行的任務不是連接或聚合，並且您正在使用數據幀，那么設置這些將不會產生任何影響。 但是，您可以通過在代碼中調用df.repartition(numOfPartitions) （不要忘記將其分配給新的val ）來自己設置分區數。

要更改代碼中的設置，您只需執行以下操作：

sqlContext.setConf("spark.sql.shuffle.partitions", "300")
sqlContext.setConf("spark.default.parallelism", "300")

或者，您可以在使用spark-submit將作業提交到集群時進行更改：

./bin/spark-submit --conf spark.sql.shuffle.partitions=300 --conf spark.default.parallelism=300

Answer 2

spark.default.parallelism是 spark 設置的默認分區數，默認為 200。如果你想增加分區數，你可以應用屬性spark.sql.shuffle.partitions來設置分區數spark 配置或在運行 spark SQL 時。

通常這個spark.sql.shuffle.partitions當我們有內存擁塞並且我們看到以下錯誤時會使用它：spark error:java.lang.IllegalArgumentException: Size exceeded Integer.MAX_VALUE

所以設置你可以為每個分區分配一個 256 MB 的分區，你可以用它來設置你的進程。

此外，如果分區數接近 2000，則將其增加到 2000 以上。由於 spark 對 <2000 和 > 2000 的分區應用不同的邏輯，這將通過減少內存占用來提高代碼性能，因為如果 >2000，數據默認值會被高度壓縮。

Answer 3

如果有人可能想知道，當設置spark.sql.shuffle.partitions可能變得無效時，確實存在特殊情況。 當您重新啟動具有相同檢查點位置的結構化流式 Spark 應用程序時，更改此術語不會生效。 在https://spark.apache.org/docs/latest/configuration.html#runtime-sql-configuration中查看更多信息

Answer 4

添加到已經發布的一些很棒的答案中：

TLDR

spark.sql.shuffle.partitions ：
- 確定在對Dataframes/Datasets進行廣泛操作后將擁有多少個 output 分區。
- 它的默認值為 200。
spark.default.parallelism ：
- 是一個更復雜的參數，在 Spark 中更“深入”。 它影響：
  - 如果不指定數量，對RDD進行廣泛操作后將擁有多少個分區
  - sc.parallelize創建了多少個分區
  - 執行spark.read.csv時讀取了多少個分區，...
- 它的默認值取決於您在哪種類型的集群上執行何種類型的操作。