在熊猫数据框中订购一列

Question

我需要创建一个数据框，过滤掉 Nationality 列中五个最常列出的国家以及它们列出的总次数。 我一直在尝试使用 groupby，但没有成功。 我用过的代码

df.groupby(['Nationality']).sum()

我还需要确定被列为参与该计划的人中至少有一个推荐人的百分比。 我也不确定这个代码。

Answer 1

检查这个问题及其答案，它与您要求的相似。

Answer 2

过滤掉包含在前 5 个国籍中的国籍的行：

df[df['Nationality'].isin(df['Nationality'].value_counts().index[:6]) == False]

通过查看 df 的形状来查看它们被列出的次数，其中行包含前 5 名的国籍：

df[df['Nationality'].isin(df['Nationality'].value_counts().index[:6])].shape

查看 Number_of_Referalls 值 > 或 = 为 1 的百分比的快速方法：

(df['Number_of_Referalls '] >= 1).value_counts(normalize=True) * 100