Spark 中压缩镶木地板文件的扩展

Question

In my Spark job, I write a compressed parquet file like this:在我的 Spark 作业中，我编写了一个压缩的 parquet 文件，如下所示：

df
  .repartition(numberOutputFiles)
  .write
  .option("compression","gzip")
  .mode(saveMode)
  .parquet(avroPath)

Then, my files has this extension: file_name .gz.parquet然后，我的文件有这个扩展名：file_name .gz.parquet

How can I have ".parquet.gz" ?我怎样才能拥有“.parquet.gz” ？

Answer 1

I don't believe you can.我不相信你可以。 File extension is hardcoded in ParquetWrite.scala as concatenation of codec + ".parquet":文件扩展名在ParquetWrite.scala中硬编码为编解码器 +“.parquet”的串联：

  :
    override def getFileExtension(context: TaskAttemptContext): String = {
      CodecConfig.from(context).getCodec.getExtension + ".parquet"
    }
  :

Spark 中压缩镶木地板文件的扩展

问题描述

1 个解决方案

解决方案1
0 2022-12-27 16:41:12

Spark 中压缩镶木地板文件的扩展

问题描述

1 个解决方案

解决方案1 0 2022-12-27 16:41:12

解决方案1
0 2022-12-27 16:41:12