無法在spark中寫入csv文件

Question

我正在嘗試使用spark 1.6.1編寫一個csv文件。 假設我有一個像這樣的csv文件：

date,category
19900108,apples
19900108,apples
19900308,peaches
19900408,peaches
19900508,pears
19910108,pears
19910108,peaches
19910308,apples
19910408,apples
19910508,apples
19920108,pears
19920108,peaches
19920308,apples
19920408,peaches
19920508,pears

我想創建一個輸出csv文件，如下所示：

date,apples,peaches,pears
1990,2,2,1
1991,3,1,1
1992,1,2,2

我正在使用此scala代碼加載文件：

spark-shell --packages com.databricks:spark-csv_2.11:1.2.0

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf
import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.functions._

val sqlContext = new SQLContext(sc)

var df = sqlContext.read.format("com.databricks.spark.csv").option("header","true").option("inferSchema", "true").load("data/sample.csv")

df = df.withColumn("year", df.col("date").substr(0,4)) 
df.groupBy("year").pivot("category").agg("category"->"count").show()

當我運行這個時，我得到了這個數據幀，這正是我想要的

+----+------+-------+-----+
|year|apples|peaches|pears|
+----+------+-------+-----+
|1990|     2|      2|    1|
|1991|     3|      1|    1|
|1992|     1|      2|    2|
+----+------+-------+-----+

但是當我嘗試使用以下代碼將其寫入CSV時：

 df.coalesce(1).write.format("com.databricks.spark.csv").option("header", "true").save("mydata4.csv")

這是我打開它時得到的csv文件，這不是我要找的。

date,category,year
19900108,apples,1990
19900108,apples,1990
19900308,peaches,1990
19900408,peaches,1990
19900508,pears,1990
19910108,pears,1991
19910108,peaches,1991
19910308,apples,1991
19910408,apples,1991
19910508,apples,1991
19920108,pears,1992
19920108,peaches,1992
19920308,apples,1992
19920408,peaches,1992
19920508,pears,1992

我錯過了什么嗎？ 難道我做錯了什么？

Answer 1

您忘記將查詢結果存儲到新變量中。

val xf = df.groupBy("year").pivot("category").agg("category"->"count")

然后使用您的上一個代碼行編寫它。

xf.coalesce(1).write.format("com.databricks.spark.csv").option("header", "true").save("mydata4.csv")

無法在spark中寫入csv文件

問題描述

1 個解決方案

解決方案1
3 已采納 2016-08-14 17:55:38

無法在spark中寫入csv文件

問題描述

1 個解決方案

解決方案1 3 已采納 2016-08-14 17:55:38

解決方案1
3 已采納 2016-08-14 17:55:38