繁体   English   中英

按多级类别分组并返回每个类别中n个最大的总和(每个类别的n不同)

[英]Group by multi-level category and return sum of n-largest in each category (n is different for each category)

我有一个 Pandas 数据框 (df),代表不同个人的每月开支。 数据框中的第一列表示人员 ID,第二列表示费用类别,第三列表示花费的金额。 请参阅下面的示例表:

d = {'PersonID': ['A','A','A','A','A','A','A','A','B','B','B','B','B','B'], 'Category': ['Food','Food','Food','Food','Travel','Travel','Travel','Travel','Food','Food','Food','Travel','Travel','Travel'], 'Expenditure':[10,15,5,20,500,100,1000,2000,10,30,10,800,1000,400]}
df = pd.DataFrame(data=d)

在此处输入图片说明

对于每个人,我想获得食品类别中三项最大支出的总和,以及旅行类别中两项最大支出的总和。

对于上面的示例表,我想要下表:

在此处输入图片说明

我正在尝试使用以下代码,但问题是我无法在不同类别中指定不同的 N-largest 费用。

df.groupby(['PersonID','Category'])['Expenditure'].nlargest(2).sum(level=0)

这样做的方法是首先按类别拆分数据帧,然后按总和分组,然后将结果连接在一起:

pd.concat([
df.query('Category == "Food"').groupby(['PersonID','Category'])['Expenditure'].nlargest(3).sum(level=[0,1]),
df.query('Category == "Travel"').groupby(['PersonID','Category'])['Expenditure'].nlargest(2).sum(level=[0,1])
])

输出:

PersonID  Category
A         Food          45
B         Food          50
A         Travel      3000
B         Travel      1800
Name: Expenditure, dtype: int64

使用字典和列表理解:

d = {'Food':2,
     'Travel':3}

pd.concat([df[df['Category'] == c].groupby(['PersonID','Category'])['Expenditure'].nlargest(n).sum(level=[0,1]) for c,n in d.items()])

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM