當列中並非所有值都存在時，是否可以通過Spark的數據框分組？

Question

例如，如果我有以下數據框

val tempDF=Seq(("a",2),("b",1),("a",3)).toDF("letter","value")

scala> tempDF.show()
+------+-----+
|letter|value|
+------+-----+
|     a|    2|
|     b|    1|
|     a|    3|
+------+-----+

我想執行groupBy列上操作letter但我們知道，有可能是另一封信c列不存在letter 。 通常我會

tempDF.groupBy("letter").sum()

scala> tempDF.groupBy("letter").sum().show()
+------+----------+                                                               
|letter|sum(value)|
+------+----------+
|     a|         5|
|     b|         1|
+------+----------+

但我想要這樣的事情：

+------+----------+                                                             
|letter|sum(value)|
+------+----------+
|     a|         5|
|     b|         1|
|     c|         0|
+------+----------+

是否可以在不以某種方式將字母c添加到數據幀的情況下執行此操作？ 我的意思是，列表中可能有很多數據框，但我不知道每個數據框缺少哪些字母（如果有的話），相反，我確實知道應該為每個數據框顯示的整個字母列表。

Answer 1

如果您已經知道所有可能的值，請創建一個單獨的（通用）數據集，其“值”為0。然后將其與任何tempDF一起添加以添加缺少的字母。 然后對最終數據集執行groupBy。

當列中並非所有值都存在時，是否可以通過Spark的數據框分組？

問題描述

1 個解決方案

解決方案1
1 已采納 2018-06-10 05:46:37

當列中並非所有值都存在時，是否可以通過Spark的數據框分組？

問題描述

1 個解決方案

解決方案1 1 已采納 2018-06-10 05:46:37

解決方案1
1 已采納 2018-06-10 05:46:37