![](/img/trans.png)
[英]dropping duplicates on one specific column and add a new column as count of repeat records pandas
[英]Dropping duplicates in Pandas excluding one column
這看起來很簡單,但我在互聯網上找不到任何有關它的信息。
我有一個如下所示的數據框:
City State Zip Date Description
Earlham IA 50072-1036 2014-10-10 Postmarket Assurance: Devices
Earlham IA 50072-1036 2014-10-10 Compliance: Devices
Madrid IA 50156-1748 2014-09-10 Drug Quality Assurance
如何消除與 5 列中的 4 列匹配的重復項? 不匹配的列是Description
。
結果是
City State Zip Date Description
Earlham IA 50072-1036 2014-10-10 Postmarket Assurance: Devices
Madrid IA 50156-1748 2014-09-10 Drug Quality Assurance
我在網上發現帶有subset
參數的drop_duplicates
可以工作,但我不確定如何將其應用於多列。
您實際上已經找到了解決方案。 對於多列,子集將是一個列表。
df.drop_duplicates(subset=['City', 'State', 'Zip', 'Date'])
或者,只需說明要忽略的列:
df.drop_duplicates(subset=df.columns.difference(['Description']))
如何添加不同的多列,如 id 和 description?
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.