使用 spark 讀取 * 帶有自定義擴展名 * 的壓縮文件

Question

我想使用等效的sc.textFile("path/to/file.Z")將 gzip 壓縮文件讀入RDD[String] 。

除了我的文件擴展名，如果不是gz而是Z ，所以文件不被識別為被 gzipped。

我無法重命名它們，因為它會破壞生產代碼。 我不想復制它們，因為它們很大而且很多。 我想我可以使用某種符號鏈接，但我想先看看是否有使用 Scala/spark 的方法（我現在在我的本地 Windows 機器上）。

我怎樣才能有效地閱讀這個文件？

Answer 1

這里有一個解決這個問題的解決方法http://arjon.es/2015/10/02/reading-compressed-data-with-spark-using-unknown-file-extensions/

相關部分：

...擴展 GzipCodec 並覆蓋 getDefaultExtension 方法。

package smx.ananke.spark.util.codecs

import org.apache.hadoop.io.compress.GzipCodec

class TmpGzipCodec extends GzipCodec {

  override def getDefaultExtension(): String = ".gz.tmp" // You should change it to ".Z"

}

現在我們剛剛注冊了這個編解碼器，在 SparkConf 上設置 spark.hadoop.io.compression.codecs：

val conf = new SparkConf()

// Custom Codec that process .gz.tmp extensions as a common Gzip format
conf.set("spark.hadoop.io.compression.codecs", "smx.ananke.spark.util.codecs.TmpGzipCodec")

val sc = new SparkContext(conf)

val data = sc.textFile("s3n://my-data-bucket/2015/09/21/13/*")

使用 spark 讀取 * 帶有自定義擴展名 * 的壓縮文件

問題描述

1 個解決方案

解決方案1
6 已采納 2017-06-05 17:36:15

使用 spark 讀取 * 帶有自定義擴展名 * 的壓縮文件

問題描述

1 個解決方案

解決方案1 6 已采納 2017-06-05 17:36:15

解決方案1
6 已采納 2017-06-05 17:36:15