删除重复项并在 pandas dataframe 中保留某列为“是”的行

Question

我有一个 dataframe 在“ID”列上有重复值，如下所示：

ID  Name    Street  Birth       Job     Primary?
1   Fake1   Street1 2000-01-01  Job1    Yes
2   Fake2   Street2 2000-01-02  Job2    No
3   Fake3   Street3 2000-01-03  Job3    Yes
1   Fake1   Street1 2000-01-01  Job4    No
2   Fake2   Street2 2000-01-02  Job5    Yes
4   Fake4   Street4 2000-01-03  Job6    Yes
1   Fake1   Street1 2000-01-01  Job7    No

我需要一种方法来删除重复项（通过“ID”），但保留列主要为“是”的那些（所有唯一值在该列中都有“是”，重复值有一个记录为“是”，所有其他记录为“否”）导致此 dataframe：

ID  Name    Street  Birth       Job     Primary?
1   Fake1   Street1 2000-01-01  Job1    Yes
3   Fake3   Street3 2000-01-03  Job3    Yes
2   Fake2   Street2 2000-01-02  Job5    Yes
4   Fake4   Street4 2000-01-03  Job6    Yes

最好的方法是什么？

谢谢！

Answer 1

使用DataFrame.sort_values - Yes的行位于ID的keep='last' ，因此Primary?=Yes使用DataFrame.drop_duplicates Primary?=No

df = df.sort_values('Primary?').drop_duplicates('ID', keep='last')
print (df)
   ID   Name   Street       Birth   Job Primary?
0   1  Fake1  Street1  2000-01-01  Job1      Yes
2   3  Fake3  Street3  2000-01-03  Job3      Yes
4   2  Fake2  Street2  2000-01-02  Job5      Yes
5   4  Fake4  Street4  2000-01-03  Job6      Yes

Answer 2

在源自“Primary?”的 boolean 系列上使用groupby.idxmax 柱子：

out = df.loc[df['Primary?'].eq('Yes').groupby(df['ID']).idxmax()]

output：

   ID   Name   Street       Birth   Job Primary?
0   1  Fake1  Street1  2000-01-01  Job1      Yes
4   2  Fake2  Street2  2000-01-02  Job5      Yes
2   3  Fake3  Street3  2000-01-03  Job3      Yes
5   4  Fake4  Street4  2000-01-03  Job6      Yes

Answer 3

从 dataframe 过滤主列以获得“是”：

 df = df[df['Primary?']=='yes']

然后，从过滤后的 dataframe 中删除重复项。

df = df.drop_duplicates(subset= ['ID'])

删除重复项并在 pandas dataframe 中保留某列为“是”的行

问题描述

3 个解决方案

解决方案1
3 已采纳 2022-09-09 06:53:40

解决方案2
1 2022-09-09 07:21:59

解决方案3
0 2022-09-09 07:04:50

删除重复项并在 pandas dataframe 中保留某列为“是”的行

问题描述

3 个解决方案

解决方案1 3 已采纳 2022-09-09 06:53:40

解决方案2 1 2022-09-09 07:21:59

解决方案3 0 2022-09-09 07:04:50

解决方案1
3 已采纳 2022-09-09 06:53:40

解决方案2
1 2022-09-09 07:21:59

解决方案3
0 2022-09-09 07:04:50