[英]How do I download NLTK data?
更新答案:NLTK適用於2.7。 我有3.2。 我卸載了3.2,然后安裝了2.7。 現在可以了!!
我已經安裝了NLTK並嘗試下載NLTK數據。 我所做的就是遵循此站點上的說明: http ://www.nltk.org/data.html
我下載了NLTK,進行了安裝,然后嘗試運行以下代碼:
>>> import nltk
>>> nltk.download()
它給了我如下錯誤信息:
Traceback (most recent call last):
File "<pyshell#6>", line 1, in <module>
nltk.download()
AttributeError: 'module' object has no attribute 'download'
Directory of C:\Python32\Lib\site-packages
嘗試了nltk.download()
和nltk.downloader()
,都給了我錯誤消息。
然后,我使用help(nltk)
提取了軟件包,它顯示以下信息:
NAME
nltk
PACKAGE CONTENTS
align
app (package)
book
ccg (package)
chat (package)
chunk (package)
classify (package)
cluster (package)
collocations
corpus (package)
data
decorators
downloader
draw (package)
examples (package)
featstruct
grammar
help
inference (package)
internals
lazyimport
metrics (package)
misc (package)
model (package)
parse (package)
probability
sem (package)
sourcedstring
stem (package)
tag (package)
test (package)
text
tokenize (package)
toolbox
tree
treetransforms
util
yamltags
FILE
c:\python32\lib\site-packages\nltk
我確實在那兒看到了Downloader,不確定為什么它不起作用。 Python 3.2.2,系統Windows Vista。
要下載特定的數據集/模型,請使用nltk.download()
函數,例如,如果您要下載punkt
句子標記器,請使用:
$ python3
>>> import nltk
>>> nltk.download('punkt')
如果不確定所需的數據/模型,則可以使用以下數據和模型的基本列表開始:
>>> import nltk
>>> nltk.download('popular')
它將下載“流行”資源的列表,其中包括:
<collection id="popular" name="Popular packages">
<item ref="cmudict" />
<item ref="gazetteers" />
<item ref="genesis" />
<item ref="gutenberg" />
<item ref="inaugural" />
<item ref="movie_reviews" />
<item ref="names" />
<item ref="shakespeare" />
<item ref="stopwords" />
<item ref="treebank" />
<item ref="twitter_samples" />
<item ref="omw" />
<item ref="wordnet" />
<item ref="wordnet_ic" />
<item ref="words" />
<item ref="maxent_ne_chunker" />
<item ref="punkt" />
<item ref="snowball_data" />
<item ref="averaged_perceptron_tagger" />
</collection>
如果有人避免從nltk
下載更大的數據集來避免錯誤,請從https://stackoverflow.com/a/38135306/610569下載
$ rm /Users/<your_username>/nltk_data/corpora/panlex_lite.zip
$ rm -r /Users/<your_username>/nltk_data/corpora/panlex_lite
$ python
>>> import nltk
>>> dler = nltk.downloader.Downloader()
>>> dler._update_index()
>>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it's already installed.
>>> dler.download('popular')
從v3.2.5開始,當nltk_data
資源時,NLTK會提供更多信息 ,例如:
>>> from nltk import word_tokenize
>>> word_tokenize('x')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/Users/l/alvas/git/nltk/nltk/tokenize/__init__.py", line 128, in word_tokenize
sentences = [text] if preserve_line else sent_tokenize(text, language)
File "/Users//alvas/git/nltk/nltk/tokenize/__init__.py", line 94, in sent_tokenize
tokenizer = load('tokenizers/punkt/{0}.pickle'.format(language))
File "/Users/alvas/git/nltk/nltk/data.py", line 820, in load
opened_resource = _open(resource_url)
File "/Users/alvas/git/nltk/nltk/data.py", line 938, in _open
return find(path_, path + ['']).open()
File "/Users/alvas/git/nltk/nltk/data.py", line 659, in find
raise LookupError(resource_not_found)
LookupError:
**********************************************************************
Resource punkt not found.
Please use the NLTK Downloader to obtain the resource:
>>> import nltk
>>> nltk.download('punkt')
Searched in:
- '/Users/alvas/nltk_data'
- '/usr/share/nltk_data'
- '/usr/local/share/nltk_data'
- '/usr/lib/nltk_data'
- '/usr/local/lib/nltk_data'
- ''
**********************************************************************
要查找nltk_data
目錄 (自動),請參閱https://stackoverflow.com/a/36383314/610569
要將nltk_data
下載到其他路徑 ,請參見https://stackoverflow.com/a/48634212/610569
要配置nltk_data
路徑 (即為NLTK設置不同的路徑以查找nltk_data
),請參見https://stackoverflow.com/a/22987374/610569
嘗試
nltk.download('all')
這將下載所有數據,而無需單獨下載。
不要命名您的文件nltk.py。我使用相同的代碼並將其命名為nltk,並得到與您相同的錯誤,我更改了文件名,並且運行良好。
安裝Pip:在終端中運行: sudo easy_install pip
安裝Numpy(可選):運行: sudo pip install -U numpy
安裝NLTK:運行: sudo pip install -U nltk
測試安裝:運行: python
然后輸入: import nltk
下載語料庫
運行: python -m nltk.downloader all
您無法保存一個名為nltk.py
python文件,因為解釋器正在讀取該文件,而不是實際文件。
更改python shell正在讀取的文件的名稱,然后嘗試最初執行的操作:
import nltk
,然后import nltk
nltk.download()
這對我有用:
nltk.set_proxy('http://user:password@proxy.example.com:8080')
nltk.download()
請試試
import nltk
nltk.download()
運行此命令后,您將獲得如下內容
NLTK Downloader
---------------------------------------------------------------------------
d) Download l) List u) Update c) Config h) Help q) Quit
---------------------------------------------------------------------------
然后, Press d
執行如下:
Downloader> d all
您將在完成時收到以下消息,然后提示,然后Press q
完成下載全部收集
我有類似的問題。 可能檢查您是否正在使用代理。
如果是,請在進行下載之前設置代理:
nltk.set_proxy('http://proxy.example.com:3128', ('USERNAME', 'PASSWORD'))
非常簡單...
import nltk
nltk.download()
您應該在安裝python的過程中將python添加到您的PATH ...安裝后。.打開cmd提示符鍵入命令pip install nltk
然后轉到IDLE並打開一個新文件。.另存為file.py ..然后打開文件。 py鍵入以下內容:import nltk
nltk.download()
嘗試從http://www.nltk.org/nltk_data/下載zip文件,然后解壓縮,保存在您的Python文件夾中,例如C:\\ ProgramData \\ Anaconda3 \\ nltk_data
如果您已經保存了文件名nltk.py,然后再次將其重命名為my_nltk_script.py。 檢查是否還存在文件nltk.py。 如果是,請刪除它們並運行文件my_nltk.scripts.py,它應該可以工作!
我認為您必須將文件命名為nltk.py(或文件夾由具有該名稱的文件組成),因此請將其更改為其他名稱並嘗試執行。
您可以嘗試:
>> $ import nltk
>> $ nltk.download_shell()
>> $ d
>> $ *name of the package*
快樂nlp'ing。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.