Pandas 与当前行列匹配的先前记录的时间序列累积

Question

我正在尝试添加一个列，该列表示与给定列的行当前值匹配的先前记录的累积总和，让我们举个例子。

我的数据是：

|t         |label|qty|cumsum|
|2020-01-05|A    |10 |10    |
|2020-01-06|B    |5  |5     |
|2020-01-06|C    |2  |2     |
|2020-01-07|A    |-5 |5     |
|2020-01-07|A    |2  |7     |
|2020-01-08|B    |-30|-25   |
|2020-01-09|C    |5  |7     |

cumsum列将总结为“对 label 与当前行相同的所有过去记录进行累积总和”

理想情况下，为了代码清晰，我想要一个表达式，例如df['cumsum']=df.loc[(df['label']==current label) & (df['t'] <= current index)].cumsum()不是 go 通过for ix,row in df:

另一个方面是从头开始累加，dataframe可以是20条记录，也可以是500k条记录。

另外，为了清楚起见，我在示例中只放了 3 个标签，但我的数据集中可以有几十个标签

我发现了一些其他类似的问题，但它们并不完全适合我的需要：

Python Pandas：基于多个条件的累积和=>它“只是”计算过去某个条件为真的时间，而不是特定列的累积和
Pandas 按组的时间累积总和=> 不会为 dataframe 的每一行保留“实时”记录

欢迎任何形式的帮助！ 谢谢！

Answer 1

df.groupby('label')['qty'].transform('cumsum')

Pandas 与当前行列匹配的先前记录的时间序列累积

问题描述

1 个解决方案

解决方案1
1 已采纳 2021-05-06 19:23:25

Pandas 与当前行列匹配的先前记录的时间序列累积

问题描述

1 个解决方案

解决方案1 1 已采纳 2021-05-06 19:23:25

解决方案1
1 已采纳 2021-05-06 19:23:25