简体   繁体   English

Spark 中压缩镶木地板文件的扩展

[英]Extension of compressed parquet file in Spark

In my Spark job, I write a compressed parquet file like this:在我的 Spark 作业中,我编写了一个压缩的 parquet 文件,如下所示:

df
  .repartition(numberOutputFiles)
  .write
  .option("compression","gzip")
  .mode(saveMode)
  .parquet(avroPath)

Then, my files has this extension: file_name .gz.parquet然后,我的文件有这个扩展名:file_name .gz.parquet

How can I have ".parquet.gz" ?我怎样才能拥有“.parquet.gz”

I don't believe you can.我不相信你可以。 File extension is hardcoded in ParquetWrite.scala as concatenation of codec + ".parquet":文件扩展名在ParquetWrite.scala中硬编码为编解码器 +“.parquet”的串联:

  :
    override def getFileExtension(context: TaskAttemptContext): String = {
      CodecConfig.from(context).getCodec.getExtension + ".parquet"
    }
  :

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM