在 pandas 中加載 csv 文件會產生重復項

Question

我有一個包含 2741 行和 279 列的 .csv 文件：

當我嘗試使用pd.read_csv()在 python 中加載該文件時，這就是我得到的：

>>> df = pd.read_csv("preprocessed_data.csv")
/usr/local/lib/python3.7/dist-packages/IPython/core/interactiveshell.py:2882: DtypeWarning: Columns (1,2,3) have mixed types.Specify dtype option on import or set low_memory=False.
  exec(code_obj, self.user_global_ns, self.user_ns)

>>> df.shape
(18696, 279)

顯然行數從 2741 變為 18696，這是荒謬的。

所以我檢查了如下重復值：

>>> df[df.duplicated()].shape
(15987, 279)

這意味着在這 18696 行中，有 15987 行存在重復項。 那么，為什么在加載 csv 文件后出現這些重復項，以及如何解決這個問題？

Answer 1

至於我，所有問題都可能出在您創建這些文件時——而不是在您加載它們時。

也許你多次使用.to_csv()模式append並且它多次添加相同的值。

此時你可以在df[ ~df.duplicated() ]中使用~來保持唯一值

df = df[ ~df.duplicated() ]

在 pandas 中加載 csv 文件會產生重復項

問題描述

1 個解決方案

解決方案1
1 2022-04-01 21:37:11

在 pandas 中加載 csv 文件會產生重復項

問題描述

1 個解決方案

解決方案1 1 2022-04-01 21:37:11

解決方案1
1 2022-04-01 21:37:11