簡體 English 中英

Spark不壓縮JSON輸出

[英]Spark not compressing json output

原文 2016-10-04 08:59:19 5 1 apache-spark

我在腳本中添加了以下內容：

val conf = new SparkConf
conf.set("spark.hadoop.mapred.output.compress", "true")
conf.set("spark.hadoop.mapred.output.compression.codec", "true")
conf.set("spark.hadoop.mapred.output.compression.codec", "org.apache.hadoop.io.compress.GzipCodec")
conf.set("spark.hadoop.mapred.output.compression.type", "BLOCK")

然后我像df.write.json("out")這樣寫數據。 但是，我得到的只是輸出中的.json文件，而不是預期的.json.gz。 怎么了

1 個解決方案

您可以嘗試以下方法：

import org.apache.hadoop.io.compress.GzipCodec

val df = Seq((2012, 8, "Batman", 9.8), (2012, 8, "Hero", 8.7), (2012, 7, "Robot", 5.5), (2011, 7, "Git", 2.0)).toDF("year", "month", "title", "rating")
df.toJSON.rdd.saveAsTextFile("/tmp/jsonRecords", classOf[GzipCodec])

如何在Google Datproc中優化Hadoop MapReduce壓縮Spark輸出？

[英]How to optimize Hadoop MapReduce compressing Spark output in Google Datproc?

在 Spark 中壓縮序列文件？

[英]Compressing sequence file in Spark?

Spark SqlContext輸出JSON格式

[英]Spark SqlContext output JSON format

Spark 2.0.0 - JSON格式錯誤的輸出

[英]Spark 2.0.0 - JSON malformed output

如何將 Spark 數據幀輸出轉換為 json？

[英]How to convert Spark dataframe output to json?

使用 Spark 將 SQL output 轉換為 JSON

[英]Convert SQL output to JSON using Spark

火花流rdd到json輸出而不棄用

[英]spark streaming rdd to json output without deprecation

使用Spark自定義JSON輸出格式

[英]Custom Formatting of JSON output using Spark

spark partition通過json輸出中的分區列

[英]spark partitionBy with partitioned column in json output

Spark：壓縮並保存到文本文件時出錯

[英]Spark: Error while compressing and saving to text file

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何在Google Datproc中優化Hadoop MapReduce壓縮Spark輸出？在 Spark 中壓縮序列文件？ Spark SqlContext輸出JSON格式 Spark 2.0.0 - JSON格式錯誤的輸出如何將 Spark 數據幀輸出轉換為 json？使用 Spark 將 SQL output 轉換為 JSON 火花流rdd到json輸出而不棄用使用Spark自定義JSON輸出格式 spark partition通過json輸出中的分區列 Spark：壓縮並保存到文本文件時出錯

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM