[英]Loading csv file in pandas generates duplicates
我有一個包含 2741 行和 279 列的 .csv 文件:
當我嘗試使用pd.read_csv()
在 python 中加載該文件時,這就是我得到的:
>>> df = pd.read_csv("preprocessed_data.csv")
/usr/local/lib/python3.7/dist-packages/IPython/core/interactiveshell.py:2882: DtypeWarning: Columns (1,2,3) have mixed types.Specify dtype option on import or set low_memory=False.
exec(code_obj, self.user_global_ns, self.user_ns)
>>> df.shape
(18696, 279)
顯然行數從 2741 變為 18696,這是荒謬的。
所以我檢查了如下重復值:
>>> df[df.duplicated()].shape
(15987, 279)
這意味着在這 18696 行中,有 15987 行存在重復項。 那么,為什么在加載 csv 文件后出現這些重復項,以及如何解決這個問題?
至於我,所有問題都可能出在您創建這些文件時——而不是在您加載它們時。
也許你多次使用.to_csv()
模式append
並且它多次添加相同的值。
此時你可以在df[ ~df.duplicated() ]
中使用~
來保持唯一值
df = df[ ~df.duplicated() ]
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.