簡體   English   中英

如何下載NLTK數據?

[英]How do I download NLTK data?

更新答案:NLTK適用於2.7。 我有3.2。 我卸載了3.2,然后安裝了2.7。 現在可以了!!

我已經安裝了NLTK並嘗試下載NLTK數據。 我所做的就是遵循此站點上的說明: http ://www.nltk.org/data.html

我下載了NLTK,進行了安裝,然后嘗試運行以下代碼:

>>> import nltk
>>> nltk.download()

它給了我如下錯誤信息:

Traceback (most recent call last):
  File "<pyshell#6>", line 1, in <module>
    nltk.download()
AttributeError: 'module' object has no attribute 'download'
 Directory of C:\Python32\Lib\site-packages

嘗試了nltk.download()nltk.downloader() ,都給了我錯誤消息。

然后,我使用help(nltk)提取了軟件包,它顯示以下信息:

NAME
    nltk

PACKAGE CONTENTS
    align
    app (package)
    book
    ccg (package)
    chat (package)
    chunk (package)
    classify (package)
    cluster (package)
    collocations
    corpus (package)
    data
    decorators
    downloader
    draw (package)
    examples (package)
    featstruct
    grammar
    help
    inference (package)
    internals
    lazyimport
    metrics (package)
    misc (package)
    model (package)
    parse (package)
    probability
    sem (package)
    sourcedstring
    stem (package)
    tag (package)
    test (package)
    text
    tokenize (package)
    toolbox
    tree
    treetransforms
    util
    yamltags

FILE
    c:\python32\lib\site-packages\nltk

我確實在那兒看到了Downloader,不確定為什么它不起作用。 Python 3.2.2,系統Windows Vista。

TL; DR

要下載特定的數據集/模型,請使用nltk.download()函數,例如,如果您要下載punkt句子標記器,請使用:

$ python3
>>> import nltk
>>> nltk.download('punkt')

如果不確定所需的數據/模型,則可以使用以下數據和模型的基本列表開始:

>>> import nltk
>>> nltk.download('popular')

它將下載“流行”資源的列表,其中包括:

<collection id="popular" name="Popular packages">
      <item ref="cmudict" />
      <item ref="gazetteers" />
      <item ref="genesis" />
      <item ref="gutenberg" />
      <item ref="inaugural" />
      <item ref="movie_reviews" />
      <item ref="names" />
      <item ref="shakespeare" />
      <item ref="stopwords" />
      <item ref="treebank" />
      <item ref="twitter_samples" />
      <item ref="omw" />
      <item ref="wordnet" />
      <item ref="wordnet_ic" />
      <item ref="words" />
      <item ref="maxent_ne_chunker" />
      <item ref="punkt" />
      <item ref="snowball_data" />
      <item ref="averaged_perceptron_tagger" />
    </collection>

已編輯

如果有人避免從nltk下載更大的數據集來避免錯誤,請從https://stackoverflow.com/a/38135306/610569下載

$ rm /Users/<your_username>/nltk_data/corpora/panlex_lite.zip
$ rm -r /Users/<your_username>/nltk_data/corpora/panlex_lite
$ python

>>> import nltk
>>> dler = nltk.downloader.Downloader()
>>> dler._update_index()
>>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it's already installed.
>>> dler.download('popular')

更新

從v3.2.5開始,nltk_data資源時,NLTK會提供更多信息 ,例如:

>>> from nltk import word_tokenize
>>> word_tokenize('x')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/Users/l/alvas/git/nltk/nltk/tokenize/__init__.py", line 128, in word_tokenize
    sentences = [text] if preserve_line else sent_tokenize(text, language)
  File "/Users//alvas/git/nltk/nltk/tokenize/__init__.py", line 94, in sent_tokenize
    tokenizer = load('tokenizers/punkt/{0}.pickle'.format(language))
  File "/Users/alvas/git/nltk/nltk/data.py", line 820, in load
    opened_resource = _open(resource_url)
  File "/Users/alvas/git/nltk/nltk/data.py", line 938, in _open
    return find(path_, path + ['']).open()
  File "/Users/alvas/git/nltk/nltk/data.py", line 659, in find
    raise LookupError(resource_not_found)
LookupError: 
**********************************************************************
  Resource punkt not found.
  Please use the NLTK Downloader to obtain the resource:

  >>> import nltk
  >>> nltk.download('punkt')

  Searched in:
    - '/Users/alvas/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'
    - ''
**********************************************************************

有關

嘗試

nltk.download('all')

這將下載所有數據,而無需單獨下載。

不要命名您的文件nltk.py。我使用相同的代碼並將其命名為nltk,並得到與您相同的錯誤,我更改了文件名,並且運行良好。

安裝Pip:在終端中運行: sudo easy_install pip

安裝Numpy(可選):運行: sudo pip install -U numpy

安裝NLTK:運行: sudo pip install -U nltk

測試安裝:運行: python

然后輸入: import nltk

下載語料庫

運行: python -m nltk.downloader all

您無法保存一個名為nltk.py python文件,因為解釋器正在讀取該文件,而不是實際文件。

更改python shell正在讀取的文件的名稱,然后嘗試最初執行的操作:

import nltk ,然后import nltk nltk.download()

這對我有用:

nltk.set_proxy('http://user:password@proxy.example.com:8080')
nltk.download()

如果您運行的是nltk的較舊版本,則實際上沒有可用的下載模塊( 參考

嘗試這個:

import nltk
print(nltk.__version__)

根據參考,0.9.5之后的任何內容都可以

請試試

import nltk

nltk.download()

運行此命令后,您將獲得如下內容

NLTK Downloader
---------------------------------------------------------------------------
   d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------

然后, Press d

執行如下:

Downloader> d all

您將在完成時收到以下消息,然后提示,然后Press q完成下載全部收集

我有類似的問題。 可能檢查您是否正在使用代理。

如果是,請在進行下載之前設置代理:

nltk.set_proxy('http://proxy.example.com:3128', ('USERNAME', 'PASSWORD'))

非常簡單...

  1. 打開pyScripter或任何編輯器
  2. 創建一個python文件,例如:install.py
  3. 在其中編寫以下代碼。
import nltk
nltk.download()
  1. 將會彈出一個窗口,然后單擊下載。

下載窗口]

您應該在安裝python的過程中將python添加到您的PATH ...安裝后。.打開cmd提示符鍵入命令pip install nltk然后轉到IDLE並打開一個新文件。.另存為file.py ..然后打開文件。 py鍵入以下內容:import nltk

nltk.download()

嘗試從http://www.nltk.org/nltk_data/下載zip文件,然后解壓縮,保存在您的Python文件夾中,例如C:\\ ProgramData \\ Anaconda3 \\ nltk_data

如果您已經保存了文件名nltk.py,然后再次將其重命名為my_nltk_script.py。 檢查是否還存在文件nltk.py。 如果是,請刪除它們並運行文件my_nltk.scripts.py,它應該可以工作!

我認為您必須將文件命名為nltk.py(或文件夾由具有該名稱的文件組成),因此請將其更改為其他名稱並嘗試執行。

您可以嘗試:

>> $ import nltk
>> $ nltk.download_shell()
>> $ d
>> $ *name of the package*

快樂nlp'ing。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM