簡體   English   中英

刪除 Pandas 中的重復項,不包括一列

[英]Dropping duplicates in Pandas excluding one column

這看起來很簡單,但我在互聯網上找不到任何有關它的信息。

我有一個如下所示的數據框:

City    State Zip           Date        Description       
Earlham IA    50072-1036    2014-10-10  Postmarket Assurance: Devices
Earlham IA    50072-1036    2014-10-10  Compliance: Devices
Madrid  IA    50156-1748    2014-09-10  Drug Quality Assurance

如何消除與 5 列中的 4 列匹配的重復項? 不匹配的列是Description

結果是

City    State Zip           Date        Description       
Earlham IA    50072-1036    2014-10-10  Postmarket Assurance: Devices
Madrid  IA    50156-1748    2014-09-10  Drug Quality Assurance

我在網上發現帶有subset參數的drop_duplicates可以工作,但我不確定如何將其應用於多列。

您實際上已經找到了解決方案。 對於多列,子集將是一個列表。

df.drop_duplicates(subset=['City', 'State', 'Zip', 'Date']) 

或者,只需說明要忽略的列:

df.drop_duplicates(subset=df.columns.difference(['Description']))

如何添加不同的多列,如 id 和 description?

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM