為什么即使在執行 nltk.download 並且所有軟件包都已正確安裝之后，nltk word_tokenize 也無法正常工作？

Question

我正在使用 python 3.7 64 位。 nltk 版本 3.4.5。

當我嘗試使用 word_tokenize 將 nltk.book 中的 text6 轉換為令牌時，出現錯誤。

import nltk
from nltk.tokenize import word_tokenize
from nltk.book import *
tokens=word_tokenize(text6)

代碼在空閑 3.7 中完成

以下是我執行最后一條語句時的錯誤。

    Traceback (most recent call last):
  File "<pyshell#4>", line 1, in <module>
    tokens=word_tokenize(text6)
  File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\__init__.py", line 144, in word_tokenize
    sentences = [text] if preserve_line else sent_tokenize(text, language)
  File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\__init__.py", line 106, in sent_tokenize
    return tokenizer.tokenize(text)
  File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\punkt.py", line 1277, in tokenize
    return list(self.sentences_from_text(text, realign_boundaries))
  File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\punkt.py", line 1331, in sentences_from_text
    return [text[s:e] for s, e in self.span_tokenize(text, realign_boundaries)]
  File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\punkt.py", line 1331, in <listcomp>
    return [text[s:e] for s, e in self.span_tokenize(text, realign_boundaries)]
  File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\punkt.py", line 1321, in span_tokenize
    for sl in slices:
  File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\punkt.py", line 1362, in _realign_boundaries
    for sl1, sl2 in _pair_iter(slices):
  File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\punkt.py", line 318, in _pair_iter
    prev = next(it)
  File "C:\Users\admin\AppData\Local\Programs\Python\Python37\lib\site-packages\nltk\tokenize\punkt.py", line 1335, in _slices_from_text
    for match in self._lang_vars.period_context_re().finditer(text):
TypeError: expected string or bytes-like object

請幫忙。 提前致謝。

在進行一些故障排除時，我創建了一個示例 nltk.text.Text object 並嘗試使用 nltk.word_tokenize 對其進行標記。 我仍然遇到同樣的錯誤。 請看下面的截圖。

但是在字符串上調用 nltk.word_tokenize() 時，它可以工作。

>>> tt="Python is a programming language"
>>> tokens2=nltk.word_tokenize(tt) #Not throwing error
>>> type(tt)
<class 'str'>
>>> type(text6)
<class 'nltk.text.Text'>
>>>

Answer 1

檢查 nltk 數據文件夾。 以及它期望它應該位於的位置。

Answer 2

嘗試使用：

nltk.download('朋克')

為什么即使在執行 nltk.download 並且所有軟件包都已正確安裝之后，nltk word_tokenize 也無法正常工作？

問題描述

2 個解決方案

解決方案1
0 2021-10-06 16:03:23

解決方案2
-1 2020-07-07 03:30:01

為什么即使在執行 nltk.download 並且所有軟件包都已正確安裝之后，nltk word_tokenize 也無法正常工作？

問題描述

2 個解決方案

解決方案1 0 2021-10-06 16:03:23

解決方案2 -1 2020-07-07 03:30:01

解決方案1
0 2021-10-06 16:03:23

解決方案2
-1 2020-07-07 03:30:01