除 1 以外的所有列的 Spark groupby 總和

Question

我有一個 header 的數據集，如下所示：

|State|2020-01-22|2020-01-23|2020-01-24|2020-01-25|2020-01-26|2020-01-27|2020-01-28|

我正在嘗試基於groupBy列和每列的行值總和（列數保持不變）進行State 。 但是當我使用它時：

from pyspark.sql import SparkSession
import pyspark.sql.functions as F
df = df.groupBy('State').agg(F.sum())

但我收到錯誤： sum() missing 1 required positional argument: 'col'如何獲取每列的行值總和。 我也試過這個：

df = df.groupBy('State').agg(F.sum('2020-01-22','2020-01-23'))

我得到一個錯誤： sum() takes 1 positional argument but 2 were given

感謝你們對我的幫助。

Answer 1

使用列表理解來迭代除石斑魚之外的所有列

 df.groupBy('State').agg(*[sum(i).alias(f"sum_{i}") for i in df.drop('State').columns]).show()

Answer 2

只需注意GroupedData df.groupBy()返回的 GroupedData object 有一個sum方法，當沒有通過 arguments 時，它會匯總所有列：

>>> df.show()
+-----+---+---+
|state|  a|  b|
+-----+---+---+
|    a|  5|  5|
|    a|  6|  6|
|    b| 10| 10|
+-----+---+---+

>>> df.groupBy("state").sum().show()
+-----+------+------+
|state|sum(a)|sum(b)|
+-----+------+------+
|    b|    10|    10|
|    a|    11|    11|
+-----+------+------+

除 1 以外的所有列的 Spark groupby 總和

問題描述

2 個解決方案

解決方案1
0 2022-04-19 00:46:09

解決方案2
0 2022-04-19 07:16:43

除 1 以外的所有列的 Spark groupby 總和

問題描述

2 個解決方案

解決方案1 0 2022-04-19 00:46:09

解決方案2 0 2022-04-19 07:16:43

解決方案1
0 2022-04-19 00:46:09

解決方案2
0 2022-04-19 07:16:43