使用 NLTK 创建 pos 标记的语料库

Question

我想用 NLTK 构建 pos 标记的语料库。 这样我就可以基于它训练我的模型。

到目前为止，我已经参考了许多来源，但每个来源都只是解释如何阅读您的标记语料库以及阅读单词、句子等。以下是我尝试过的一段代码：

from nltk.corpus.reader import TaggedCorpusReader
reader = TaggedCorpusReader('/home/abc/nltk_data/', 'pos_tagged.pos')
reader.words()
reader.tagged_words()
reader.sents()

我想将我的语料库包含在home/nltk_data/corpora/文件夹中，以便我可以导入我创建的语料库。 请指导我。

Answer 1

我得到了这个可行的解决方案：请参阅链接以了解分步程序。

从这里下载相同的必要文件。

一旦您遵循来自1 个pickle 文件的命令，就会生成这是您的标记语料库。

生成pickle文件后，您可以通过运行以下代码来检查标记器是否正常工作：

import nltk.data
tagger = nltk.data.load("taggers/NAME_OF_TAGGER.pickle")
tagger.tag(['some', 'words', 'in', 'a', 'sentence'])

使用 NLTK 创建 pos 标记的语料库

问题描述

1 个解决方案

解决方案1
2 2017-09-27 10:42:23

使用 NLTK 创建 pos 标记的语料库

问题描述

1 个解决方案

解决方案1 2 2017-09-27 10:42:23

解决方案1
2 2017-09-27 10:42:23