繁体   English   中英

在熊猫中删除具有重复列的选定行

[英]Dropping selected rows in Pandas with duplicated columns

假设我有一个像这样的数据框:

fname    lname     email

Joe      Aaron   
Joe      Aaron     some@some.com
Bill     Smith 
Bill     Smith
Bill     Smith     some2@some.com

有没有简洁方便的方法来删除{fname,lname}重复且电子邮件为空白的行?

您应该首先检查您的“空”数据是NaN还是空字符串。 如果它们是混合的,则可能需要修改以下逻辑。

如果空行是NaN

使用pd.DataFrame.sort_valuespd.DataFrame.drop_duplicates

df = df.sort_values('email')\
       .drop_duplicates(['fname', 'lname'])

如果空行是字符串

如果空行是字符串,则在排序时需要指定ascending=False

df = df.sort_values('email', ascending=False)\
       .drop_duplicates(['fname', 'lname'])

结果

print(df)

  fname  lname           email
4  Bill  Smith  some2@some.com
1   Joe  Aaron   some@some.com

您可以将firstgroupby一起使用(注意,请用np.nan替换为空,因为first将返回每列的第一个非null值)

df.replace('',np.nan).groupby(['fname','lname']).first().reset_index()
Out[20]: 
  fname  lname           email
0  Bill  Smith  some2@some.com
1   Joe  Aaron   some@some.com

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM