![](/img/trans.png)
[英]dropping duplicates on one specific column and add a new column as count of repeat records pandas
[英]Dropping duplicates in Pandas excluding one column
这看起来很简单,但我在互联网上找不到任何有关它的信息。
我有一个如下所示的数据框:
City State Zip Date Description
Earlham IA 50072-1036 2014-10-10 Postmarket Assurance: Devices
Earlham IA 50072-1036 2014-10-10 Compliance: Devices
Madrid IA 50156-1748 2014-09-10 Drug Quality Assurance
如何消除与 5 列中的 4 列匹配的重复项? 不匹配的列是Description
。
结果是
City State Zip Date Description
Earlham IA 50072-1036 2014-10-10 Postmarket Assurance: Devices
Madrid IA 50156-1748 2014-09-10 Drug Quality Assurance
我在网上发现带有subset
参数的drop_duplicates
可以工作,但我不确定如何将其应用于多列。
您实际上已经找到了解决方案。 对于多列,子集将是一个列表。
df.drop_duplicates(subset=['City', 'State', 'Zip', 'Date'])
或者,只需说明要忽略的列:
df.drop_duplicates(subset=df.columns.difference(['Description']))
如何添加不同的多列,如 id 和 description?
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.