[英]Pandas read_csv - Error tokenizing data after modifying Excel .csv file
我有一個用於 ML 分類器的 CSV 數據集。 它有 2 列,如下所示:
但是這個數據集非常臟,所以我決定用 Excel 打開它,刪除“臟”字,並將其保存為新的 CSV 文件並在其上訓練我的 ML 分類器。
但是在我將它保存在 Excel 之后(使用,
分隔符並嘗試, UTF-8
),並且在嘗試pd.read_csv
時,它給了我這個錯誤:
Error tokenizing data. C error: Expected 3 fields in line 4, saw 5
然后我嘗試使用sep=';'
用read_csv
,它工作,但現在所有的俄語字符都被替換為奇怪的符號:
有人可以解釋一下如何修復俄語字符中的“問題”符號嗎? encoding='UTF-8'
給出了這個錯誤:
'utf-8' codec can't decode byte 0xe6 in position 22: invalid continuation byte
這是第一個文件的樣子(未修改 Excel .csv
文件):
當我打開第二個文件(修改)時:
嘗試使用ptcp154
或kz1048
編碼打開文件。 他們似乎工作。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.