簡體   English   中英

按日期分組並對 Pyspark 中每個組的第一個值求和

[英]Grouping by date and summing the first values from each group in Pyspark

我有一個類似的數據框:

date      | balance|
-------------------|
01/01/2018| 1000   |
01/07/2018| 1200   |
01/01/2019| 900    |
01/07/2019| 1200   |
01/01/2018| 133    |
01/07/2018| 1335   |
01/01/2019| 1244   |
01/07/2019| 124    |

我想按日期分組,使用可能是第一種方法,並對第一行求和,得到如下結果:

date      | first(balance)|
--------------------------|
01/01/2018| 1133          |
01/01/2019| 2235          |

我有:

df = df.groupBy("balance").sum(f.first("balance"))

結果:

TypeError:列不可迭代

您的問題和示例數據框不完全匹配。

從我從你的問題中推斷出來,

df = df.groupBy('date').agg(F.first('balance').alias('balance')).agg(F.sum('balance'))

理想情況下,這應該有效。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM