簡體   English   中英

Pandas read_csv - 修改 Excel.csv 文件后錯誤標記數據

[英]Pandas read_csv - Error tokenizing data after modifying Excel .csv file

我有一個用於 ML 分類器的 CSV 數據集。 它有 2 列,如下所示:

在此處輸入圖像描述

但是這個數據集非常臟,所以我決定用 Excel 打開它,刪除“臟”字,並將其保存為新的 CSV 文件並在其上訓練我的 ML 分類器。

但是在我將它保存在 Excel 之后(使用,分隔符並嘗試, UTF-8 ),並且在嘗試pd.read_csv時,它給了我這個錯誤:

Error tokenizing data. C error: Expected 3 fields in line 4, saw 5

然后我嘗試使用sep=';' read_csv ,它工作,但現在所有的俄語字符都被替換為奇怪的符號:

在此處輸入圖像描述

有人可以解釋一下如何修復俄語字符中的“問題”符號嗎? encoding='UTF-8'給出了這個錯誤:

'utf-8' codec can't decode byte 0xe6 in position 22: invalid continuation byte

這是第一個文件的樣子(未修改 Excel .csv文件):

在此處輸入圖像描述

當我打開第二個文件(修改)時:

在此處輸入圖像描述

嘗試使用ptcp154kz1048編碼打開文件。 他們似乎工作。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM