簡體 English 中英

Spark 中壓縮鑲木地板文件的擴展

[英]Extension of compressed parquet file in Spark

原文 2022-12-26 16:17:56 1 1 scala/ apache-spark/ parquet/ spark2.4.4

在我的 Spark 作業中，我編寫了一個壓縮的 parquet 文件，如下所示：

df
  .repartition(numberOutputFiles)
  .write
  .option("compression","gzip")
  .mode(saveMode)
  .parquet(avroPath)

然后，我的文件有這個擴展名：file_name .gz.parquet

我怎樣才能擁有“.parquet.gz” ？

1 個解決方案

我不相信你可以。 文件擴展名在ParquetWrite.scala中硬編碼為編解碼器 +“.parquet”的串聯：

  :
    override def getFileExtension(context: TaskAttemptContext): String = {
      CodecConfig.from(context).getCodec.getExtension + ".parquet"
    }
  :

spark parquet - 如何加載 LZO 壓縮的鑲木地板文件

[英]spark parquet - How to load LZO compressed parquet file

使用 spark 讀取 * 帶有自定義擴展名 * 的壓縮文件

[英]Read a compressed file *with custom extension* with spark

用scala讀取spark中的壓縮文件

[英]reading compressed file in spark with scala

spark：讀取實木復合地板文件並進行處理

[英]spark: read parquet file and process it

覆蓋鑲木地板文件會在火花中引發異常

[英]Overwriting the parquet file throws exception in spark

在沒有Spark的情況下在Scala中創建Parquet文件

[英]Create Parquet file in Scala without Spark

如何在Spark中設置Parquet文件編碼

[英]How to set Parquet file encoding in Spark

如何在Spark 2.1中保存分區的鑲木地板文件？

[英]How to save a partitioned parquet file in Spark 2.1?

Hive與Parquet文件上的Spark數據集

[英]Spark Dataset on Hive vs Parquet file

火花鑲木地板轉換問題與文件中的格式錯誤的行

[英]spark parquet conversion issue with malformed lines in file

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 spark parquet - 如何加載 LZO 壓縮的鑲木地板文件使用 spark 讀取 * 帶有自定義擴展名 * 的壓縮文件用scala讀取spark中的壓縮文件 spark：讀取實木復合地板文件並進行處理覆蓋鑲木地板文件會在火花中引發異常在沒有Spark的情況下在Scala中創建Parquet文件如何在Spark中設置Parquet文件編碼如何在Spark 2.1中保存分區的鑲木地板文件？ Hive與Parquet文件上的Spark數據集火花鑲木地板轉換問題與文件中的格式錯誤的行

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM