簡體   English   中英

Spark 中壓縮鑲木地板文件的擴展

[英]Extension of compressed parquet file in Spark

在我的 Spark 作業中,我編寫了一個壓縮的 parquet 文件,如下所示:

df
  .repartition(numberOutputFiles)
  .write
  .option("compression","gzip")
  .mode(saveMode)
  .parquet(avroPath)

然后,我的文件有這個擴展名:file_name .gz.parquet

我怎樣才能擁有“.parquet.gz”

我不相信你可以。 文件擴展名在ParquetWrite.scala中硬編碼為編解碼器 +“.parquet”的串聯:

  :
    override def getFileExtension(context: TaskAttemptContext): String = {
      CodecConfig.from(context).getCodec.getExtension + ".parquet"
    }
  :

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM