在熊貓數據框中訂購一列

Question

我需要創建一個數據框，過濾掉 Nationality 列中五個最常列出的國家以及它們列出的總次數。 我一直在嘗試使用 groupby，但沒有成功。 我用過的代碼

df.groupby(['Nationality']).sum()

我還需要確定被列為參與該計划的人中至少有一個推薦人的百分比。 我也不確定這個代碼。

Answer 1

檢查這個問題及其答案，它與您要求的相似。

Answer 2

過濾掉包含在前 5 個國籍中的國籍的行：

df[df['Nationality'].isin(df['Nationality'].value_counts().index[:6]) == False]

通過查看 df 的形狀來查看它們被列出的次數，其中行包含前 5 名的國籍：

df[df['Nationality'].isin(df['Nationality'].value_counts().index[:6])].shape

查看 Number_of_Referalls 值 > 或 = 為 1 的百分比的快速方法：

(df['Number_of_Referalls '] >= 1).value_counts(normalize=True) * 100