从Pandas聚合重命名结果列（“FutureWarning：使用带重命名的dict已弃用”）

Question

我正在尝试对熊猫数据框进行一些聚合。 这是一个示例代码：

import pandas as pd

df = pd.DataFrame({"User": ["user1", "user2", "user2", "user3", "user2", "user1"],
                  "Amount": [10.0, 5.0, 8.0, 10.5, 7.5, 8.0]})

df.groupby(["User"]).agg({"Amount": {"Sum": "sum", "Count": "count"}})

Out[1]: 
      Amount      
         Sum Count
User              
user1   18.0     2
user2   20.5     3
user3   10.5     1

这会产生以下警告：

FutureWarning：使用带重命名的dict已弃用，将在未来的版本中返回super（DataFrameGroupBy，self）.aggregate（arg，* args，** kwargs）

我怎么能避免这个？

Answer 1

使用groupby `apply`并返回Series以重命名列

使用groupby apply方法执行聚合

重命名列
允许名称中的空格
允许您以您选择的任何方式订购返回的列
允许列之间的交互
返回单级索引而不是MultiIndex

去做这个：

创建您传递给apply的自定义函数
此自定义函数作为DataFrame传递给每个组
返回系列
系列的索引将是新列

创建虚假数据

df = pd.DataFrame({"User": ["user1", "user2", "user2", "user3", "user2", "user1", "user3"],
                  "Amount": [10.0, 5.0, 8.0, 10.5, 7.5, 8.0, 9],
                  'Score': [9, 1, 8, 7, 7, 6, 9]})

创建返回Series的自定义函数
my_agg的变量x是一个DataFrame

def my_agg(x):
    names = {
        'Amount mean': x['Amount'].mean(),
        'Amount std':  x['Amount'].std(),
        'Amount range': x['Amount'].max() - x['Amount'].min(),
        'Score Max':  x['Score'].max(),
        'Score Sum': x['Score'].sum(),
        'Amount Score Sum': (x['Amount'] * x['Score']).sum()}

    return pd.Series(names, index=['Amount range', 'Amount std', 'Amount mean',
                                   'Score Sum', 'Score Max', 'Amount Score Sum'])

将此自定义函数传递给groupby apply方法

df.groupby('User').apply(my_agg)

最大的缺点是，对于cythonized聚合，此函数将比agg慢得多

使用groupby `agg`方法的字典

使用词典字典被删除了，因为它的复杂性和模糊性。 目前正在讨论如何在github上改进此功能。在这里，您可以在groupby调用后直接访问聚合列。 只需传递您希望应用的所有聚合函数的列表。

df.groupby('User')['Amount'].agg(['sum', 'count'])

产量

       sum  count
User              
user1  18.0      2
user2  20.5      3
user3  10.5      1

仍然可以使用字典来明确表示不同列的不同聚合，如果存在另一个名为Other数字列，则此处也是如此。

df = pd.DataFrame({"User": ["user1", "user2", "user2", "user3", "user2", "user1"],
              "Amount": [10.0, 5.0, 8.0, 10.5, 7.5, 8.0],
              'Other': [1,2,3,4,5,6]})

df.groupby('User').agg({'Amount' : ['sum', 'count'], 'Other':['max', 'std']})

产量

      Amount       Other          
         sum count   max       std
User                              
user1   18.0     2     6  3.535534
user2   20.5     3     5  1.527525
user3   10.5     1     4       NaN

Answer 2

如果用一个元组列表替换内部字典，它就会删除警告消息

import pandas as pd

df = pd.DataFrame({"User": ["user1", "user2", "user2", "user3", "user2", "user1"],
                  "Amount": [10.0, 5.0, 8.0, 10.5, 7.5, 8.0]})

df.groupby(["User"]).agg({"Amount": [("Sum", "sum"), ("Count", "count")]})

Answer 3

更新Pandas 0.25+ 聚合重新标记

import pandas as pd

print(pd.__version__)
#0.25.0

df = pd.DataFrame({"User": ["user1", "user2", "user2", "user3", "user2", "user1"],
                  "Amount": [10.0, 5.0, 8.0, 10.5, 7.5, 8.0]})

df.groupby("User")['Amount'].agg(Sum='sum', Count='count')

输出：

        Sum  Count
User              
user1  18.0      2
user2  20.5      3
user3  10.5      1

Answer 4

这就是我做的：

创建一个假数据集：

import pandas as pd
df = pd.DataFrame({"User": ["user1", "user2", "user2", "user3", "user2", "user1", "user3"],
                  "Amount": [10.0, 5.0, 8.0, 10.5, 7.5, 8.0, 9],
                  'Score': [9, 1, 8, 7, 7, 6, 9]})
df

O / P：

    Amount  Score   User
0   10.0    9   user1
1   5.0 1   user2
2   8.0 8   user2
3   10.5    7   user3
4   7.5 7   user2
5   8.0 6   user1
6   9.0 9   user3

我首先将User作为索引，然后是groupby：

ans = df.set_index('User').groupby(level=0)['Amount'].agg([('Sum','sum'),('Count','count')])
ans

解：

    Sum Count
User        
user1   18.0    2
user2   20.5    3
user3   19.5    2

Answer 5

用正确命名的函数列表替换内部字典。

要重命名我正在使用此实用程序功能的函数：

def aliased_aggr(aggr, name):
    if isinstance(aggr,str):
        def f(data):
            return data.agg(aggr)
    else:
        def f(data):
            return aggr(data)
    f.__name__ = name
    return f

然后，group-by语句变为：


df.groupby(["User"]).agg({"Amount": [ 
    aliased_aggr("sum","Sum"),
    aliased_aggr("count","Count")
]

如果您有更大的，可重复使用的聚合规范，则可以使用它们进行转换

def convert_aggr_spec(aggr_spec):
    return {
        col : [ 
            aliased_aggr(aggr,alias) for alias, aggr in aggr_map.items() 
        ]  
        for col, aggr_map in aggr_spec.items() 
    }

所以你可以说

df.groupby(["User"]).agg(convert_aggr_spec({"Amount": {"Sum": "sum", "Count": "count"}}))

另见https://github.com/pandas-dev/pandas/issues/18366#issuecomment-476597674

从Pandas聚合重命名结果列（“FutureWarning：使用带重命名的dict已弃用”）

问题描述

5 个解决方案

解决方案1
72 已采纳 2017-06-19 16:33:54

使用groupby `apply`并返回Series以重命名列

使用groupby `agg`方法的字典

解决方案2
12 2018-06-05 09:44:27

解决方案3
3 2019-07-30 20:29:18

更新Pandas 0.25+ 聚合重新标记

解决方案4
2 2018-11-12 14:46:00

解决方案5
0 2019-03-26 12:27:00

从Pandas聚合重命名结果列（“FutureWarning：使用带重命名的dict已弃用”）

问题描述

5 个解决方案

解决方案1 72 已采纳 2017-06-19 16:33:54

使用groupby apply并返回Series以重命名列

使用groupby agg方法的字典

解决方案2 12 2018-06-05 09:44:27

解决方案3 3 2019-07-30 20:29:18

更新Pandas 0.25+ 聚合重新标记

解决方案4 2 2018-11-12 14:46:00

解决方案5 0 2019-03-26 12:27:00

解决方案1
72 已采纳 2017-06-19 16:33:54

使用groupby `apply`并返回Series以重命名列

使用groupby `agg`方法的字典

解决方案2
12 2018-06-05 09:44:27

解决方案3
3 2019-07-30 20:29:18

解决方案4
2 2018-11-12 14:46:00

解决方案5
0 2019-03-26 12:27:00