簡體   English   中英

在 pandas 中加載 csv 文件會產生重復項

[英]Loading csv file in pandas generates duplicates

我有一個包含 2741 行和 279 列的 .csv 文件: csv_介紹 文件

當我嘗試使用pd.read_csv()在 python 中加載該文件時,這就是我得到的:

>>> df = pd.read_csv("preprocessed_data.csv")
/usr/local/lib/python3.7/dist-packages/IPython/core/interactiveshell.py:2882: DtypeWarning: Columns (1,2,3) have mixed types.Specify dtype option on import or set low_memory=False.
  exec(code_obj, self.user_global_ns, self.user_ns)

>>> df.shape
(18696, 279)

顯然行數從 2741 變為 18696,這是荒謬的。

所以我檢查了如下重復值:

>>> df[df.duplicated()].shape
(15987, 279)

這意味着在這 18696 行中,有 15987 行存在重復項。 那么,為什么在加載 csv 文件后出現這些重復項,以及如何解決這個問題?

至於我,所有問題都可能出在您創建這些文件時——而不是在您加載它們時。

也許你多次使用.to_csv()模式append並且它多次添加相同的值。

此時你可以在df[ ~df.duplicated() ]中使用~來保持唯一值

df = df[ ~df.duplicated() ] 

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM