[英]Unable to create partition on S3 using spark
我想使用這個新功能:覆蓋特定分區而不刪除 s3 中的所有數據
我使用了新標志( spark.sql.sources.partitionOverwriteMode="dynamic"
)並從我的 IDE 本地測試它並且它工作(我能夠覆蓋 s3 中的特定分區)但是當我將它部署到 hdp 2.6.5 時spark 2.3.0 相同的代碼沒有按預期創建 s3 文件夾,根本沒有創建文件夾,只創建了臨時文件夾
我的代碼:
df.write
.mode(SaveMode.Overwtite)
.partitionBy("day","hour")
.option("compression", "gzip")
.parquet(s3Path)
您是否嘗試過 spark 2.4版? 我已經使用過這個版本,並且EMR和Glue都運行良好,要使用2.4 版中的“動態”,只需使用以下代碼:
dataset.write.mode("overwrite")
.option("partitionOverwriteMode", "dynamic")
.partitionBy("dt")
.parquet("s3://bucket/output")
AWS 文檔指定 Spark版本 2.3.2使用spark.sql.sources.partitionOverwriteMode="dynamic"
。
參考點擊這里。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.