NLTK3 UnicodeDecode 錯誤

Question

我無法執行以下幾行，錯誤是

"UnicodeDecodeError: 'ascii' codec can't decode byte 0xcb in position 0: ordinal not in range(128)"

文件“D:\\Py 64\\anaconda\\lib\\site-packages\\nltk\\tag__init__.py”，第 100 行，在 pos_tag tagger = load(_POS_TAGGER)

文件“D:\\Py 64\\anaconda\\lib\\site-packages\\nltk\\data.py”，第779行，在load resource_val = pickle.load(opened_resource, encoding='iso-8859-1')

我的錯誤不僅出現在 data.py 中，還出現在init .py 中。

注： -我在data.py改變了代碼，行779所提到這里

text = word_tokenize("They refuse to permit us to obtain the refuse permit")

nltk.pos_tag(text)

Answer 1

我相信使用 nltk 3.0.3 和最新的maxent_treebank_pos_tagger模型可以解決此問題。

要安裝 nltk，請使用

pip install -U nltk

安裝 nltk 后，打開 Python3 解釋器，輸入：

>>> import nltk
>>> nltk.download()

並使用 GUI 安裝maxent_treebank_pos_tagger 。 它位於models選項卡下：

models > maxent_treebank_pos_tagger