[英]pandas groupby sums differences between two columns and get the average for each group
[英]pandas sum the differences between two columns in each group
我有一个df
样子,
A B C D
2017-10-01 2017-10-11 M 2017-10
2017-10-02 2017-10-03 M 2017-10
2017-11-01 2017-11-04 B 2017-11
2017-11-08 2017-11-09 B 2017-11
2018-01-01 2018-01-03 A 2018-01
A
和B
的dtype
是datetime64
, C
和D
是strings
;
我喜欢对C
和D
进行groupby
,以得到B
和A
之间的差异,
df.groupby(['C', 'D']).apply(lambda row: row['B'] - row['A'])
但是我不知道如何将每组中的差异求和并将值分配给新列E
(可能是新df
,
C D E
M 2017-10 11
M 2017-10 11
B 2017-11 4
B 2017-11 4
A 2018-01 2
根据您的代码
df.merge(df.groupby(['C', 'D']).apply(lambda row: row['B'] - row['A']).sum(level=[0,1]).reset_index())
Out[292]:
A B C D 0
0 2017-10-01 2017-10-11 M 2017-10 11 days
1 2017-10-02 2017-10-03 M 2017-10 11 days
2 2017-11-01 2017-11-04 B 2017-11 4 days
3 2017-11-08 2017-11-09 B 2017-11 4 days
4 2018-01-01 2018-01-03 A 2018-01 2 days
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.