无法使用 spark 在 S3 上创建分区

Question

我想使用这个新功能：覆盖特定分区而不删除 s3 中的所有数据

我使用了新标志（ spark.sql.sources.partitionOverwriteMode="dynamic" ）并从我的 IDE 本地测试它并且它工作（我能够覆盖 s3 中的特定分区）但是当我将它部署到 hdp 2.6.5 时spark 2.3.0 相同的代码没有按预期创建 s3 文件夹，根本没有创建文件夹，只创建了临时文件夹

我的代码：

df.write
.mode(SaveMode.Overwtite)
.partitionBy("day","hour")
.option("compression", "gzip")
.parquet(s3Path)

Answer 1

您是否尝试过 spark 2.4版？ 我已经使用过这个版本，并且EMR和Glue都运行良好，要使用2.4 版中的“动态”，只需使用以下代码：

dataset.write.mode("overwrite")
.option("partitionOverwriteMode", "dynamic")
.partitionBy("dt")
.parquet("s3://bucket/output")

AWS 文档指定 Spark版本 2.3.2使用spark.sql.sources.partitionOverwriteMode="dynamic" 。

参考点击这里。

无法使用 spark 在 S3 上创建分区

问题描述

1 个解决方案

解决方案1
0 2019-10-09 17:40:36

无法使用 spark 在 S3 上创建分区

问题描述

1 个解决方案

解决方案1 0 2019-10-09 17:40:36

解决方案1
0 2019-10-09 17:40:36