繁体 English 中英

Spark：如何覆盖 S3 文件夹上的文件而不是完整的文件夹

[英]Spark: How to overwrite a file on S3 folder and not complete folder

原文 2019-07-09 06:38:31 0 2 apache-spark/ amazon-s3/ apache-spark-2.0

使用 Spark 我正在尝试将一些数据（以 csv、parquet 格式）推送到 S3 存储桶。

df.write.mode("OVERWRITE").format("com.databricks.spark.csv").options(nullValue=options['nullValue'], header=options['header'], delimiter=options['delimiter'], quote=options['quote'], escape=options['escape']).save(destination_path)

2 个解决方案

简短回答：将 Spark 配置参数spark.sql.sources.partitionOverwriteMode为dynamic而不是静态。 这只会覆盖必要的分区，而不是全部。 PySpark 示例：

conf=SparkConf().setAppName("test).set("spark.sql.sources.partitionOverwriteMode","dynamic").setMaster("yarn")
sc = SparkContext(conf=conf)
sqlContext = sql.SQLContext(sc)

可以先删除文件，然后使用追加模式插入数据，而不是覆盖以保留子文件夹。 以下是 Pyspark 的一个示例。

import subprocess
subprocess.call(["hadoop", "fs", "-rm", "{}*.csv.deflate".format(destination_path)])

df.write.mode("append").format("com.databricks.spark.csv").options(nullValue=options['nullValue'], header=options['header'], delimiter=options['delimiter'], quote=options['quote'], escape=options['escape']).save(destination_path)

Spark saveAsTextFile写入空文件- <directory> _ $ folder $到S3

[英]Spark saveAsTextFile writes empty file - <directory>_$folder$ to S3

无法使用 spark scala 在 intelij 本地读取 AWS S3 文件夹中存在的 CSV 文件

[英]unable to read a CSV file present in AWS S3 folder locally in intelij using spark scala

如果Spark不存在，Spark会创建一个s3文件夹路径吗？

[英]Will Spark create a s3 folder path if it doesn't exist?

始终从 spark 中的 s3 存储桶读取最新文件夹

[英]Always read latest folder from s3 bucket in spark

从AWS s3中的文件夹发送Spark流-PySpark

[英]Spark Streaming from a folder in AWS s3 - PySpark

将Spark数据帧作为镶木地板写入S3而不创建_temporary文件夹

[英]Writing Spark dataframe as parquet to S3 without creating a _temporary folder

如何通过EMR上的火花有效地读取/解析s3文件夹中的.gz文件的负载

[英]How to efficiently read/parse loads of .gz files in a s3 folder with spark on EMR

使用Spark覆盖S3文件

[英]Overwrite S3 files using Spark

如何使用 Spark 读取文件夹文件？

[英]How to read folder file using Spark?

Spark S3完成分段上传错误

[英]Spark S3 complete multipart upload error

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Spark saveAsTextFile写入空文件- <directory> _ $ folder $到S3 无法使用 spark scala 在 intelij 本地读取 AWS S3 文件夹中存在的 CSV 文件如果Spark不存在，Spark会创建一个s3文件夹路径吗？始终从 spark 中的 s3 存储桶读取最新文件夹从AWS s3中的文件夹发送Spark流-PySpark 将Spark数据帧作为镶木地板写入S3而不创建_temporary文件夹如何通过EMR上的火花有效地读取/解析s3文件夹中的.gz文件的负载使用Spark覆盖S3文件如何使用 Spark 读取文件夹文件？ Spark S3完成分段上传错误

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM