UnicodeDecodeError：'utf-8'編解碼器無法解碼 position 0 中的字節 0xff：讀取 csv 時 python 中的無效起始字節錯誤

Question

StopWords = pd.read_csv('stopwords.csv',encoding='UTF-8', quotechar='|',names=['StopWords'])

我正在嘗試讀取包含波斯語文本的 CSV 文件，這是我得到的錯誤：

UnicodeDecodeError：“utf-8”編解碼器無法解碼 position 中的字節 0xff 0：無效的起始字節

Answer 1

在沒有看到文件的二進制內容的情況下，很難猜測實際編碼，但是 UTF-8，無論有沒有 BOM（字節順序標記）都不能以 0xFF 開頭。

如果它以 0xFF 開頭，那么這表明它可能在 Little Endian UTF-16 到 UTF-32 中，這是唯一具有以 0xFF 開頭的字節順序標記的 Unicode 序列化。

它也可能是波斯語特定的字符集。 如果 Unicode 選項可用，則應避免使用國家字符集，以生成源 CSV 文件。