簡體 English 中英

Python 熊貓 drop_duplicates() 不准確

[英]Python pandas drop_duplicates() inaccuracy

原文 2020-10-31 22:18:12 5 1 python/ pandas

我正在處理一個包含編譯一些 .tsv 文件的項目，我正在嘗試清理其中一個文件，這就是我目前所擁有的。

數據文件太大，無法將輸出粘貼到此處，因此這里有幾張照片解釋了我當前的問題。

在運行 drop 之前（嘗試刪除重復的 tconst）

運行 drop 后（刪除太多行）


origin = pd.read_table('akas.tsv')

origin.drop(origin.columns[[1,2,5,6,7]], axis=1, inplace=True)
origin.columns = ['tconst','region','language']
origin.drop_duplicates(subset = 'tconst', keep = False, inplace = True) 
print(origin)

1 個解決方案

如果您想保留每個重復項（而不是所有重復項）的記錄，則不應使用keep=False 。 引用drop_duplicates的文檔

keep: {'first', 'last', False}, default 'first' 確定要保留哪些重復項（如果有）。

first : 除第一次出現外，刪除重復項。
last ：刪除除最后一次出現的重復項。
False ：刪除所有重復項。

通過指定keep=False ，您可以指示熊貓刪除包含重復項的所有行。 相反，如果您指定keep="first"您的數據框將保留任何重復項的第一個條目，並刪除所有其余條目（這似乎是您所期望的）。

Python /熊貓-drop_duplicates ValueError

[英]Python / Pandas - drop_duplicates ValueError

帶有滾動窗口的Python Pandas drop_duplicates

[英]Python pandas drop_duplicates with rolling window

Pandas：drop_duplicates（）基於python中的條件

[英]Pandas:drop_duplicates() based on condition in python

drop_duplicates 在 pandas 中不起作用？

[英]drop_duplicates not working in pandas?

熊貓 drop_duplicates 問題

[英]Pandas drop_duplicates Issue

熊貓：帶有條件的drop_duplicates

[英]Pandas: drop_duplicates with condition

Python / Pandas-drop_duplicates選擇最完整的行

[英]Python/Pandas - drop_duplicates selecting the most complete row

熊貓 - drop_duplicates 沒有按預期工作

[英]pandas - drop_duplicates not working as expected

pandas drop_duplicates使用比較功能

[英]pandas drop_duplicates using comparison function

Pandas - drop_duplicates具有多個條件

[英]Pandas - drop_duplicates with multiple conditions

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Python /熊貓-drop_duplicates ValueError 帶有滾動窗口的Python Pandas drop_duplicates Pandas：drop_duplicates（）基於python中的條件 drop_duplicates 在 pandas 中不起作用？熊貓 drop_duplicates 問題熊貓：帶有條件的drop_duplicates Python / Pandas-drop_duplicates選擇最完整的行熊貓 - drop_duplicates 沒有按預期工作 pandas drop_duplicates使用比較功能 Pandas - drop_duplicates具有多個條件

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM