簡體   English   中英

UnicodeDecodeError:'utf-8'編解碼器無法解碼 position 0 中的字節 0xff:讀取 csv 時 python 中的無效起始字節錯誤

[英]UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte error in python while reading a csv file

StopWords = pd.read_csv('stopwords.csv',encoding='UTF-8', quotechar='|',names=['StopWords'])

我正在嘗試讀取包含波斯語文本的 CSV 文件,這是我得到的錯誤:

UnicodeDecodeError:“utf-8”編解碼器無法解碼 position 中的字節 0xff 0:無效的起始字節

在沒有看到文件的二進制內容的情況下,很難猜測實際編碼,但是 UTF-8,無論有沒有 BOM(字節順序標記)都不能以 0xFF 開頭。

如果它以 0xFF 開頭,那么這表明它可能在 Little Endian UTF-16 到 UTF-32 中,這是唯一具有以 0xFF 開頭的字節順序標記的 Unicode 序列化。

https://en.wikipedia.org/wiki/Byte_order_mark給出了一些解釋。

它也可能是波斯語特定的字符集。 如果 Unicode 選項可用,則應避免使用國家字符集,以生成源 CSV 文件。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM