繁体   English   中英

使用我自己的标记语料库进行NLTK POS标记?

[英]NLTK POS tagging using my own tagged corpus?

我正在尝试使用NLTK为Dothraki语言编写基本的POS标记器。 与布朗语料库相似,我有自己的.txt文件,其中包含单词及其相关的词性。 例如...

Anha / PRP vidrik / VBP khalasares / NN anni / NN jim / NN

我想做的是将该语料库加载到NLTK中,并能够看到单词旁边的词性,类似于Brown语料库的用法。 所以这就是我在做什么:

from nltk.corpus.reader import TaggedCorpusReader

corpus_root = '...'
dothraki_corpus_tagged = TaggedCorpusReader(corpus_root, ".*", ".txt")
print (dothraki_corpus_tagged.tagged_sents('dt01.txt'))

但是我的结果是:

[[('Anha/PRP', None), ('vidrik/VBP', None), ('khalasares/NN', None), ('anni/NN', None), ('jim/NN', None)]]

代替

[[('Anha', 'PRP'), ('vidrik', 'VBP') ...]]

因此,我现在感觉有点愚蠢,但是通过从TaggedCorpusReader参数中删除“。*”,我设法获得了想要的东西。 所以我现在得到的是:

dothraki_corpus_tagged = TaggedCorpusReader(corpus_root, ".txt")
print (dothraki_corpus_tagged.tagged_sents('dothraki_01.txt'))

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM