由另一列 pandas 分组的列中的总和值

Question

我的 df 看起来像这样：

country   id       x       y
AT        11      50     100
AT        12      NaN     90
AT        13      NaN    104
AT        22      40      50
AT        23      30      23
AT        61      40      88
AT        62      NaN     78  
UK        11      40      34
UK        12      NaN     22
UK        13      NaN     70

我需要的是第一行中 y 列的总和，它不是 x 中的 NaN，按列 id 左侧的第一个数字分组。 这对每个国家都是分开的。 最后，我只需要删除 NaN。

结果应该是这样的：

country   id       x       y
AT        11      50     294
AT        22      40      50
AT        23      30      23
AT        61      40     166
UK        11      40      126

Answer 1

您可以通过GroupBy.agg by first和sum函数与 helper Series通过比较 Series.notna 的非缺失值和Series.notna的累积总和来Series.cumsum ：

df1 = (df.groupby(['country', df['x'].notna().cumsum()])
         .agg({'id':'first', 'x':'first', 'y':'sum'})
         .reset_index(level=1, drop=True)
         .reset_index())
print (df1)
  country  id     x    y
0      AT  11  50.0  294
1      AT  22  40.0   50
2      AT  23  30.0   23
3      AT  61  40.0  166
4      UK  11  40.0  126

如果可能x的第一个值是错误值，请添加DataFrame.dropna ：

print (df)
   country  id     x    y
0       AT  11   NaN  100
1       AT  11  50.0  100
2       AT  12   NaN   90
3       AT  13   NaN  104
4       AT  22  40.0   50
5       AT  23  30.0   23
6       AT  61  40.0   88
7       AT  62   NaN   78
8       UK  11  40.0   34
9       UK  12   NaN   22
10      UK  13   NaN   70

df1 = (df.groupby(['country', df['x'].notna().cumsum()])
         .agg({'id':'first', 'x':'first', 'y':'sum'})
         .reset_index(level=1, drop=True)
         .reset_index()
         .dropna(subset=['x']))
print (df1)
  country  id     x    y
1      AT  11  50.0  294
2      AT  22  40.0   50
3      AT  23  30.0   23
4      AT  61  40.0  166
5      UK  11  40.0  126

Answer 2

使用groupby 、 transform和dropna ：

print (df.assign(y=df.groupby(df["x"].notnull().cumsum())["y"].transform('sum'))
         .dropna(subset=["x"]))

  country  id     x    y
0      AT  11  50.0  294
3      AT  22  40.0   50
4      AT  23  30.0   23
5      AT  61  40.0  166
7      UK  11  40.0  126

由另一列 pandas 分组的列中的总和值

问题描述

2 个解决方案

解决方案1
2 2020-04-15 07:43:46

解决方案2
0 已采纳 2020-04-15 07:49:48

由另一列 pandas 分组的列中的总和值

问题描述

2 个解决方案

解决方案1 2 2020-04-15 07:43:46

解决方案2 0 已采纳 2020-04-15 07:49:48

解决方案1
2 2020-04-15 07:43:46

解决方案2
0 已采纳 2020-04-15 07:49:48