簡體   English   中英

Spark不壓縮JSON輸出

[英]Spark not compressing json output

我在腳本中添加了以下內容:

val conf = new SparkConf
conf.set("spark.hadoop.mapred.output.compress", "true")
conf.set("spark.hadoop.mapred.output.compression.codec", "true")
conf.set("spark.hadoop.mapred.output.compression.codec", "org.apache.hadoop.io.compress.GzipCodec")
conf.set("spark.hadoop.mapred.output.compression.type", "BLOCK")

然后我像df.write.json("out")這樣寫數據。 但是,我得到的只是輸出中的.json文件,而不是預期的.json.gz。 怎么了

您可以嘗試以下方法:

import org.apache.hadoop.io.compress.GzipCodec

val df = Seq((2012, 8, "Batman", 9.8), (2012, 8, "Hero", 8.7), (2012, 7, "Robot", 5.5), (2011, 7, "Git", 2.0)).toDF("year", "month", "title", "rating")
df.toJSON.rdd.saveAsTextFile("/tmp/jsonRecords", classOf[GzipCodec])

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM