[英]Grouping by date and summing the first values from each group in Pyspark
我有一個類似的數據框:
date | balance|
-------------------|
01/01/2018| 1000 |
01/07/2018| 1200 |
01/01/2019| 900 |
01/07/2019| 1200 |
01/01/2018| 133 |
01/07/2018| 1335 |
01/01/2019| 1244 |
01/07/2019| 124 |
我想按日期分組,使用可能是第一種方法,並對第一行求和,得到如下結果:
date | first(balance)|
--------------------------|
01/01/2018| 1133 |
01/01/2019| 2235 |
我有:
df = df.groupBy("balance").sum(f.first("balance"))
結果:
TypeError:列不可迭代
您的問題和示例數據框不完全匹配。
從我從你的問題中推斷出來,
df = df.groupBy('date').agg(F.first('balance').alias('balance')).agg(F.sum('balance'))
理想情況下,這應該有效。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.