Pandas dataframe，如何按多列分組並為特定列應用總和並添加新的計數列？

Question

給定一個 dataframe df1 如下：

Col1    Col2    Col3    Col4    Col5
-------------------------------------
A       1       AA      10      Test1
A       1       AA      5       Test2
A       2       AB      30      Test3
B       4       FF      10      Test4
C       1       HH      4       Test7
C       3       GG      6       Test8
C       3       GG      7       Test9
D       1       AA      4       Test5
D       3       FF      6       Test6

我想按 Col1、Col2 和 Col3 分組，
添加新列計數：每組的大小
添加新列 Col4_sum：每組中每個 Col4 的總和

Output 需要

Col1    Col2    Col3    Count   Col4_sum
----------------------------------------
A       1       AA      2       15
A       2       AB      1       30
B       4       FF      1       10
C       1       HH      1       4
C       3       GG      2       13
D       1       AA      1       4
D       3       FF      1       6

我嘗試使用

df1.groupby(['Col1','Col2','Col3']).size

但只得到 Count 列。

Answer 1

將GroupBy.agg與元組一起使用以指定具有新列名稱的聚合 function：

df = (df1.groupby(['Col1','Col2','Col3'])['Col4']
         .agg([('Count','size'), ('Col4_sum','sum')])
         .reset_index())
print (df)
  Col1  Col2 Col3  Count  Col4_sum
0    A     1   AA      2        15
1    A     2   AB      1        30
2    B     4   FF      1        10
3    C     1   HH      1         4
4    C     3   GG      2        13
5    D     1   AA      1         4
6    D     3   FF      1         6

在 pandas 0.25+ 中可以使用named aggregation ：

df = (df1.groupby(['Col1','Col2','Col3'])
         .agg(Count=('Col5', 'size'), Col4_sum=('Col4', 'sum'))
         .reset_index())
print (df)
  Col1  Col2 Col3  Count  Col4_sum
0    A     1   AA      2        15
1    A     2   AB      1        30
2    B     4   FF      1        10
3    C     1   HH      1         4
4    C     3   GG      2        13
5    D     1   AA      1         4
6    D     3   FF      1         6

Answer 2

您可以使用列名和聚合函數的字典。 見https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.aggregate.html

>>> df = pd.DataFrame([[1, 2, 3],
...                    [4, 5, 6],
...                    [7, 8, 9],
...                    [np.nan, np.nan, np.nan]],
...                   columns=['A', 'B', 'C'])
>>> df.agg({'A' : ['sum', 'min'], 'B' : ['min', 'max']})
#         A    B
# max   NaN  8.0
# min   1.0  2.0
# sum  12.0  NaN

Answer 3

另一個更冗長且未提及的解決方案是使用分配 function ，如下所示：

df = df1.assign(Count=df1.groupby(['Col1','Col2','Col3']).Col4.transform('size'))
        .assign(Col4_sum=df1.groupby(['Col1','Col2','Col3']).Col4.transform('sum'))
        .reset_index()

Answer 4

這應該可以解決您的問題。

df2 = df.groupby(['Col1','Col2','Col3'])['Col4'].agg('sum')

Answer 5

使用 agg function 和字典，您可以像這樣自定義 output

df.groupby(['Col1','Col2','Col3']).agg({'Col3': ['count'], 'Col4': ['count','sum']})

這應該為 Col1、Col2 和 Col3 返回一個組，同時聚合 Col3 的計數，然后是 Col4 的計數和總和

Answer 6

您可以使用 function pivot_table ：

df = pd.pivot_table(df, index=['Col1', 'Col2', 'Col3'], values='Col4', aggfunc=['count', 'sum']).reset_index()
df.columns = ['Col1', 'Col2', 'Col3', 'Count', 'Col4_sum']

Output：

  Col1  Col2 Col3  Count  Col4_sum
0    A     1   AA      2        15
1    A     2   AB      1        30
2    B     4   FF      1        10
3    C     1   HH      1         4
4    C     3   GG      2        13
5    D     1   AA      1         4
6    D     3   FF      1         6

Pandas dataframe，如何按多列分組並為特定列應用總和並添加新的計數列？

問題描述

6 個解決方案

解決方案1
7 2019-11-21 07:41:58

解決方案2
2 已采納 2019-11-21 07:43:24

解決方案3
0 2019-11-21 07:44:41

解決方案4
0 2019-11-21 07:45:12

解決方案5
0 2019-11-21 07:58:25

解決方案6
0 2019-11-21 07:58:58

Pandas dataframe，如何按多列分組並為特定列應用總和並添加新的計數列？

問題描述

6 個解決方案

解決方案1 7 2019-11-21 07:41:58

解決方案2 2 已采納 2019-11-21 07:43:24

解決方案3 0 2019-11-21 07:44:41

解決方案4 0 2019-11-21 07:45:12

解決方案5 0 2019-11-21 07:58:25

解決方案6 0 2019-11-21 07:58:58

解決方案1
7 2019-11-21 07:41:58

解決方案2
2 已采納 2019-11-21 07:43:24

解決方案3
0 2019-11-21 07:44:41

解決方案4
0 2019-11-21 07:45:12

解決方案5
0 2019-11-21 07:58:25

解決方案6
0 2019-11-21 07:58:58