[英]Extension of compressed parquet file in Spark
在我的 Spark 作業中,我編寫了一個壓縮的 parquet 文件,如下所示:
df
.repartition(numberOutputFiles)
.write
.option("compression","gzip")
.mode(saveMode)
.parquet(avroPath)
然后,我的文件有這個擴展名:file_name .gz.parquet
我怎樣才能擁有“.parquet.gz” ?
我不相信你可以。 文件擴展名在ParquetWrite.scala
中硬編碼為編解碼器 +“.parquet”的串聯:
:
override def getFileExtension(context: TaskAttemptContext): String = {
CodecConfig.from(context).getCodec.getExtension + ".parquet"
}
:
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.