[英]How to drop duplicates in one column based on values in 2 other columns in DataFrame in Python Pandas?
[英]Drop duplicates from a panda dataframe based on other column values
我正在使用的 Dataframe 如下:
Name NoOfTrans Avg_pass_time Cons.Error RunCounts
Jan 0 Failed:abcd 4
Jan 4
Jan 4
Jan 4
May 2 Failed:abcFailed:cde 5
May 5
May 1200 5
May 1200 5
May 5
我需要从按“名称”列分组的“名称”、“Avg_pass_time”和“RunCounts”列中删除重复项,以便 output 如下所示:
Name NoOfTrans Avg_pass_time Cons.Error RunCounts
Jan 0 Failed:abcd 4
May 2 1200 Failed:abcFailed:cde 5
任何指南都会有用
您可以 select 将用于删除重复项的行子集:
df = df.drop_duplicates(subset=['Name','Avg_pass_time','RunCounts'])
未经测试,但这应该有效。
如果每组只有空字符串或重复值,请使用:
df = df.replace('',np.nan).groupby('Name', as_index=False).first().fillna('')
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.