按日期分組並對 Pyspark 中每個組的第一個值求和

Question

我有一個類似的數據框：

date      | balance|
-------------------|
01/01/2018| 1000   |
01/07/2018| 1200   |
01/01/2019| 900    |
01/07/2019| 1200   |
01/01/2018| 133    |
01/07/2018| 1335   |
01/01/2019| 1244   |
01/07/2019| 124    |

我想按日期分組，使用可能是第一種方法，並對第一行求和，得到如下結果：

date      | first(balance)|
--------------------------|
01/01/2018| 1133          |
01/01/2019| 2235          |

我有：

df = df.groupBy("balance").sum(f.first("balance"))

結果：

TypeError：列不可迭代

Answer 1

您的問題和示例數據框不完全匹配。

從我從你的問題中推斷出來，

df = df.groupBy('date').agg(F.first('balance').alias('balance')).agg(F.sum('balance'))

理想情況下，這應該有效。

按日期分組並對 Pyspark 中每個組的第一個值求和

問題描述

1 個解決方案

解決方案1
0 2019-11-08 15:14:02

按日期分組並對 Pyspark 中每個組的第一個值求和

問題描述

1 個解決方案

解決方案1 0 2019-11-08 15:14:02

解決方案1
0 2019-11-08 15:14:02