無法使用 spark 在 S3 上創建分區

Question

我想使用這個新功能：覆蓋特定分區而不刪除 s3 中的所有數據

我使用了新標志（ spark.sql.sources.partitionOverwriteMode="dynamic" ）並從我的 IDE 本地測試它並且它工作（我能夠覆蓋 s3 中的特定分區）但是當我將它部署到 hdp 2.6.5 時spark 2.3.0 相同的代碼沒有按預期創建 s3 文件夾，根本沒有創建文件夾，只創建了臨時文件夾

我的代碼：

df.write
.mode(SaveMode.Overwtite)
.partitionBy("day","hour")
.option("compression", "gzip")
.parquet(s3Path)

Answer 1

您是否嘗試過 spark 2.4版？ 我已經使用過這個版本，並且EMR和Glue都運行良好，要使用2.4 版中的“動態”，只需使用以下代碼：

dataset.write.mode("overwrite")
.option("partitionOverwriteMode", "dynamic")
.partitionBy("dt")
.parquet("s3://bucket/output")

AWS 文檔指定 Spark版本 2.3.2使用spark.sql.sources.partitionOverwriteMode="dynamic" 。

參考點擊這里。

無法使用 spark 在 S3 上創建分區

問題描述

1 個解決方案

解決方案1
0 2019-10-09 17:40:36

無法使用 spark 在 S3 上創建分區

問題描述

1 個解決方案

解決方案1 0 2019-10-09 17:40:36

解決方案1
0 2019-10-09 17:40:36