根据条件从数据框中删除重复项？

Question

我有一个带有列name 、 cost和status的df 。

            name        cost      status
    0       alex        5          pass
    1       alex        6          pass
    2       alex        7          pass
    3       marcus      23         pass
    4       marcus      78         fail
    5       anthony     1          pass
    6       paul        89         pass
    7       paul        23         pass
    8       paul        10         fail
    9       paul         8         pass

如果name列记录之一具有status = fail 。 我正在尝试删除整个用户的记录。

            name        cost      status
    0       alex        5          pass
    1       alex        6          pass
    2       alex        7          pass
    3       anthony     1          pass

Answer 1

使用Series.ne因为如果不相等的值进行比较fail与GroupBy.transform测试，如果所有的True每组S按GroupBy.all和过滤器boolean indexing ：

df = df[df['status'].ne('fail').groupby(df['name']).transform('all')]
print (df)
      name  cost status
0     alex     5   pass
1     alex     6   pass
2     alex     7   pass
5  anthony     1   pass

或者获取status相同fail所有名称，并通过Series.isin使用~过滤所有没有此类名称的名称的反向掩码：

df = df[~df['name'].isin(df.loc[df['status'].eq('fail'), 'name'])]
print (df)
      name  cost status
0     alex     5   pass
1     alex     6   pass
2     alex     7   pass
5  anthony     1   pass

根据条件从数据框中删除重复项？

问题描述

1 个解决方案

解决方案1
0 已采纳 2020-10-06 10:19:35

根据条件从数据框中删除重复项？

问题描述

1 个解决方案

解决方案1 0 已采纳 2020-10-06 10:19:35

解决方案1
0 已采纳 2020-10-06 10:19:35