如何使用NLTK构建POS标记语料库？

Question

我尝试从外部.txt文件构建一个POS标记的语料库，用于分块和实体及关系提取。 到目前为止，我发现了一个繁琐的多步解决方案：

使用纯文本语料库读取文件：

 from nltk.corpus.reader import PlaintextCorpusReader my_corp = PlaintextCorpusReader(".", r".*\\.txt")

标签语料库，内置Penn POS-tagger：

 my_tagged_corp= nltk.batch_pos_tag(my_corp.sents())

（顺便说一句，在这篇文章中Python引发了一个错误： NameError: name 'batch' is not defined ）

将标记的句子写入文件：

 taggedfile = open("output.txt" , "w") for sent in dd_tagged: line = " ".join( w+"/"+t for (w, t) in sent ) taggedfile.write(line + "\\n") taggedfile.close ()

最后，再次将此输出作为标记语料库读取：

 from nltk.corpus.reader import TaggedCorpusReader my_corpus2 = TaggedCorpusReader(".",r"output.txt")

这对于一个非常常见的任务来说非常不方便（分块总是请求标记的语料库）。 我的问题是：是否有更紧凑和优雅的方式来实现这一点？ 例如，同时获取原始输入文件和标记器的语料库阅读器？

Answer 1

我得到了这个工作解决方案：请逐步参考链接程序。

从这里下载相同的必要文件。

一旦你按照1个 pickle文件中的命令生成，这就是你标记的语料库。

生成pickle文件后，您可以通过运行以下代码来检查您的tagger是否正常工作：

import nltk.data
tagger = nltk.data.load("taggers/NAME_OF_TAGGER.pickle")
tagger.tag(['some', 'words', 'in', 'a', 'sentence'])

如何使用NLTK构建POS标记语料库？

问题描述

1 个解决方案

解决方案1
1 2017-09-27 11:28:48

如何使用NLTK构建POS标记语料库？

问题描述

1 个解决方案

解决方案1 1 2017-09-27 11:28:48

解决方案1
1 2017-09-27 11:28:48