簡體   English   中英

Python 熊貓 drop_duplicates() 不准確

[英]Python pandas drop_duplicates() inaccuracy

我正在處理一個包含編譯一些 .tsv 文件的項目,我正在嘗試清理其中一個文件,這就是我目前所擁有的。

數據文件太大,無法將輸出粘貼到此處,因此這里有幾張照片解釋了我當前的問題。

在運行 drop 之前(嘗試刪除重復的 tconst)

運行 drop 后(刪除太多行)


origin = pd.read_table('akas.tsv')

origin.drop(origin.columns[[1,2,5,6,7]], axis=1, inplace=True)
origin.columns = ['tconst','region','language']
origin.drop_duplicates(subset = 'tconst', keep = False, inplace = True) 
print(origin)

如果您想保留每個重復項(而不是所有重復項)的記錄,則不應使用keep=False 引用drop_duplicates文檔

keep: {'first', 'last', False}, default 'first' 確定要保留哪些重復項(如果有)。

first : 除第一次出現外,刪除重復項。
last :刪除除最后一次出現的重復項。
False :刪除所有重復項。

通過指定keep=False ,您可以指示熊貓刪除包含重復項的所有行。 相反,如果您指定keep="first"您的數據框將保留任何重復項的第一個條目,並刪除所有其余條目(這似乎是您所期望的)。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM