如何从组中的每个其他值计算每个组中的第一个值以计算随时间的变化？

Question

在 RI 中，可以像这样计算数据集中每个组随时间的变化：

df %>% 
  group_by(z) %>%
  mutate(diff = y - y[x == 0])

熊猫中的等价物是什么？

我知道使用熊猫可以减去这样的列的第一个值：

df['diff'] = df.y-df.y.iloc[0]

但是如何按变量 z 分组？

示例数据：

预期输出：

x   y   z   diff
0   2   A   0
5   4   A   2
10  6   A   4
0   1   B   0
5   5   B   4
10  9   B   8

Answer 1

你可以试试这个。

temp = df.groupby('z').\
    apply(lambda g: g.y - g.y[0]).\
    reset_index().\
    rename(columns={'y': 'diff'}).\
    drop('z', axis=1)

df.merge(temp, how='inner', left_index=True, right_on='level_1').\
    drop('level_1', axis=1)

返回：

x   y   z   diff
0   2   A   0
5   4   A   2
10  6   A   4
0   1   B   0
5   5   B   4
10  9   B   8

如何从组中的每个其他值计算每个组中的第一个值以计算随时间的变化？

问题描述

1 个解决方案

解决方案1
1 已采纳 2020-10-23 16:51:31

如何从组中的每个其他值计算每个组中的第一个值以计算随时间的变化？

问题描述

1 个解决方案

解决方案1 1 已采纳 2020-10-23 16:51:31

解决方案1
1 已采纳 2020-10-23 16:51:31