[英]Extension of compressed parquet file in Spark
In my Spark job, I write a compressed parquet file like this:在我的 Spark 作业中,我编写了一个压缩的 parquet 文件,如下所示:
df
.repartition(numberOutputFiles)
.write
.option("compression","gzip")
.mode(saveMode)
.parquet(avroPath)
Then, my files has this extension: file_name .gz.parquet然后,我的文件有这个扩展名:file_name .gz.parquet
How can I have ".parquet.gz" ?我怎样才能拥有“.parquet.gz” ?
I don't believe you can.我不相信你可以。 File extension is hardcoded in
ParquetWrite.scala
as concatenation of codec + ".parquet":文件扩展名在
ParquetWrite.scala
中硬编码为编解码器 +“.parquet”的串联:
:
override def getFileExtension(context: TaskAttemptContext): String = {
CodecConfig.from(context).getCodec.getExtension + ".parquet"
}
:
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.