使用 NLTK 創建 pos 標記的語料庫

Question

我想用 NLTK 構建 pos 標記的語料庫。 這樣我就可以基於它訓練我的模型。

到目前為止，我已經參考了許多來源，但每個來源都只是解釋如何閱讀您的標記語料庫以及閱讀單詞、句子等。以下是我嘗試過的一段代碼：

from nltk.corpus.reader import TaggedCorpusReader
reader = TaggedCorpusReader('/home/abc/nltk_data/', 'pos_tagged.pos')
reader.words()
reader.tagged_words()
reader.sents()

我想將我的語料庫包含在home/nltk_data/corpora/文件夾中，以便我可以導入我創建的語料庫。 請指導我。

Answer 1

我得到了這個可行的解決方案：請參閱鏈接以了解分步程序。

從這里下載相同的必要文件。

一旦您遵循來自1 個pickle 文件的命令，就會生成這是您的標記語料庫。

生成pickle文件后，您可以通過運行以下代碼來檢查標記器是否正常工作：

import nltk.data
tagger = nltk.data.load("taggers/NAME_OF_TAGGER.pickle")
tagger.tag(['some', 'words', 'in', 'a', 'sentence'])

使用 NLTK 創建 pos 標記的語料庫

問題描述

1 個解決方案

解決方案1
2 2017-09-27 10:42:23

使用 NLTK 創建 pos 標記的語料庫

問題描述

1 個解決方案

解決方案1 2 2017-09-27 10:42:23

解決方案1
2 2017-09-27 10:42:23