繁体   English   中英

根据其他列值从熊猫 dataframe 中删除重复项

[英]Drop duplicates from a panda dataframe based on other column values

我正在使用的 Dataframe 如下:

Name    NoOfTrans   Avg_pass_time    Cons.Error            RunCounts
Jan     0                            Failed:abcd           4
Jan                                                        4
Jan                                                        4
Jan                                                        4
May     2                            Failed:abcFailed:cde  5
May                                                        5
May                  1200                                  5
May                  1200                                  5
May                                                        5

我需要从按“名称”列分组的“名称”、“Avg_pass_time”和“RunCounts”列中删除重复项,以便 output 如下所示:

Name    NoOfTrans   Avg_pass_time    Cons.Error            RunCounts
Jan     0                            Failed:abcd           4
May     2           1200             Failed:abcFailed:cde  5

任何指南都会有用

您可以 select 将用于删除重复项的行子集:

df = df.drop_duplicates(subset=['Name','Avg_pass_time','RunCounts'])

未经测试,但这应该有效。

如果每组只有空字符串或重复值,请使用:

df = df.replace('',np.nan).groupby('Name', as_index=False).first().fillna('')

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM