Pandas read_csv 創建尾隨未命名列並且未在整個 csv 文件中讀取

Question

我在這里發現了一些類似的問題，但沒有一個能解決我的問題。 我有一個 csv 文件，其中一列包含一些長字符串，另一列包含一些短字符串。 當我讀到它時

df = pd.read_csv(file_path, encoding = 'UTF-8')

我有：

text    colA     colB    colC   colD      Unnamed: 5    Unnamed: 6  Unnamed: 7  Unnamed: 8  Unnamed: 9  Unnamed: 10

但我在 csv 文件中只有text colA colB colC colD這些列。

我認為我可以刪除那些未命名的列很好，但我發現我得到了df.shape is (180106, 11) \ 但是，我的 csv 文件大約有 270000 行。 我不知道這兩個問題是否相互關聯。

我試圖在 read_csv 中添加一個選項quoting=csv.QUOTE_NONE csv.QUOTE_NONE 這給了我：

b'Skipping line 17: expected 11 fields, saw 12\nSkipping line 18: expected 11 fields, saw 12\nSkipping line 19: expected 11 fields, saw 12\

這會跳過更多行，使其比 180106 行更少

我認為這可能與 CSV 文件的解析方式有關，但我不知道如何才能完全閱讀它。 抱歉，CSV 文件中的數據很敏感，所以我不能分享樣本。

Answer 1

只需將 csv 文件帶到您正在工作的文件名

df=pd.read_csv("file_name")
df.isnull().sum()
df.describe()
df.info()

by is null 您可以通過使用descrbive獲得所有數據列的真實值的總和您通過使用info獲得數據的統計描述如果沒有顯示數據信息，您將獲得所有數據詳細信息數據信息與數據相關聯並再次下載