Pandas read_csv - 修改 Excel.csv 文件后錯誤標記數據

Question

我有一個用於 ML 分類器的 CSV 數據集。 它有 2 列，如下所示：

但是這個數據集非常臟，所以我決定用 Excel 打開它，刪除“臟”字，並將其保存為新的 CSV 文件並在其上訓練我的 ML 分類器。

但是在我將它保存在 Excel 之后（使用,分隔符並嘗試, UTF-8 ），並且在嘗試pd.read_csv時，它給了我這個錯誤：

Error tokenizing data. C error: Expected 3 fields in line 4, saw 5

然后我嘗試使用sep=';' 用read_csv ，它工作，但現在所有的俄語字符都被替換為奇怪的符號：

有人可以解釋一下如何修復俄語字符中的“問題”符號嗎？ encoding='UTF-8'給出了這個錯誤：

'utf-8' codec can't decode byte 0xe6 in position 22: invalid continuation byte

這是第一個文件的樣子（未修改 Excel .csv文件）：

當我打開第二個文件（修改）時：

Answer 1

嘗試使用ptcp154或kz1048編碼打開文件。 他們似乎工作。