簡體   English   中英

如何根據groupby +最大結果過濾數據框?

[英]How can I filter my dataframe based on groupby+nlargest result?

我的所有FIFA 19球員都有一個數據框。 我使用分組依據來獲得球員水平最高的前10個國家/地區(最好,總體平均水平最高),其中僅包括Dataframe中擁有250個以上球員的國家/地區。

df[df.groupby('Nationality')['Overall'].transform('size') > 250].groupby(['Nationality'])['Overall'].mean().nlargest(10)

現在,我想獲取整個數據框,包括所有列,但僅包含前10個國家/地區。 我怎樣才能做到這一點?

更新:

創建示例以更好地說明:

import pandas as pd
df = pd.DataFrame({'user': ['Bob', 'Jane', 'Alice','Rick'], 
               'income': [40000, 50000, 42000, 10000],
              'country':['Brazil','USA','Brazil','Canada']})

df[df.groupby('country')['income'].transform('size') > 1].groupby(['country'])['income'].mean().nlargest(2)

我只想在此數據框上過濾巴西

您可以使用“前N個”數據框中的country的值來對原始數據框進行子集化。

import pandas as pd
df = pd.DataFrame({'user': ['Bob', 'Jane', 'Alice','Rick'], 
               'income': [40000, 50000, 42000, 10000],
              'country':['Brazil','USA','Brazil','Canada']})

top = df[df.groupby('country')['income'].transform('size') > 1].groupby(['country'])['income'].mean().nlargest(2)

df_top = df.loc[df['country'].isin(top.reset_index()['country'])]

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM