簡體   English   中英

在Python中訓練TBL POS Tagger時出現內存錯誤

[英]Memory Error when train TBL POS Tagger in Python

當我嘗試訓練一個具有40K句子的語料庫時,沒有問題。 但是,當我訓練86K句子時,出現如下錯誤:

ERROR:root:
Traceback (most recent call last):
  File "CLC_POS_train.py", line 95, in main
    train(sys.argv[10], encoding, flag_tagger, k, percent, eval_flag)
  File "CLC_POS_train.py", line 49, in train
    CLC_POS.process('TBL', train_data, test_data, flag_evaluate[1], flag_dump[1], 'pos_tbl.model' + postfix)
  File "d:\WORKing\VCL\TEST\CongToan_POS\Source\CLC_POS.py", line 184, in process
    tagger = CLC_POS.train_tbl(train_data)
  File "d:\WORKing\VCL\TEST\CongToan_POS\Source\CLC_POS.py", line 71, in train_tbl
    tbl_tagger = brill_trainer.BrillTaggerTrainer.train(trainer, train_data, max_rules=1000, min_score=3)
  File "C:\Python34\lib\site-packages\nltk-3.1-py3.4.egg\nltk\tag\brill_trainer.py", line 274, in train
    self._init_mappings(test_sents, train_sents)
  File "C:\Python34\lib\site-packages\nltk-3.1-py3.4.egg\nltk\tag\brill_trainer.py", line 341, in _init_mappings
    self._tag_positions[tag].append((sentnum, wordnum))
MemoryError
INFO:root:

我已經在Windows 64位中使用了Python 3.5,但仍然收到此錯誤。 這是用於訓練的代碼:

t0 = RegexpTagger(MyRegexp.create_regexp_tagger())
t1 = nltk.UnigramTagger(train_data, backoff=t0)
t2 = nltk.BigramTagger(train_data, backoff=t1)
trainer = brill_trainer.BrillTaggerTrainer(t2, brill.fntbl37())
tbl_tagger = brill_trainer.BrillTaggerTrainer.train(trainer, train_data, max_rules=1000, min_score=3)

發生這種情況是因為您的PC沒有足夠的RAM。 訓練大型語料庫時,它需要大量內存。 安裝更多的RAM,然后就可以完成它。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM