[英]How can I filter my dataframe based on groupby+nlargest result?
我的所有FIFA 19球員都有一個數據框。 我使用分組依據來獲得球員水平最高的前10個國家/地區(最好,總體平均水平最高),其中僅包括Dataframe中擁有250個以上球員的國家/地區。
df[df.groupby('Nationality')['Overall'].transform('size') > 250].groupby(['Nationality'])['Overall'].mean().nlargest(10)
現在,我想獲取整個數據框,包括所有列,但僅包含前10個國家/地區。 我怎樣才能做到這一點?
更新:
創建示例以更好地說明:
import pandas as pd
df = pd.DataFrame({'user': ['Bob', 'Jane', 'Alice','Rick'],
'income': [40000, 50000, 42000, 10000],
'country':['Brazil','USA','Brazil','Canada']})
df[df.groupby('country')['income'].transform('size') > 1].groupby(['country'])['income'].mean().nlargest(2)
我只想在此數據框上過濾巴西
您可以使用“前N個”數據框中的country
的值來對原始數據框進行子集化。
import pandas as pd
df = pd.DataFrame({'user': ['Bob', 'Jane', 'Alice','Rick'],
'income': [40000, 50000, 42000, 10000],
'country':['Brazil','USA','Brazil','Canada']})
top = df[df.groupby('country')['income'].transform('size') > 1].groupby(['country'])['income'].mean().nlargest(2)
df_top = df.loc[df['country'].isin(top.reset_index()['country'])]
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.