如何在python crfsuite中使用Conll 2003语料库

Question

我已经下载了Conll 2003语料库（“ eng.train”）。 我想使用它通过python crfsuite训练来提取实体。 但是我不知道如何加载该文件进行培训。

我找到了这个例子，但它不是英语的。

train_sents = list(nltk.corpus.conll2002.iob_sents('esp.train'))
test_sents = list(nltk.corpus.conll2002.iob_sents('esp.testb'))

同样，将来我想训练POS或位置以外的新实体。 我该如何添加这些。

还请提出如何处理多个单词的建议。

Answer 1

您可以使用ConllCorpusReader 。

这里是一个一般的实现 ： ConllCorpusReader('file path', 'file name', columntypes=['','',''])

您可以在此处使用的列类型列表 ： 'WORDS', 'POS', 'TREE', 'CHUNK', 'NE', 'SRL', 'IGNORE'

范例：

from nltk.corpus.reader import ConllCorpusReader

train = ConllCorpusReader('CoNLL-2003', 'eng.train', ['words', 'pos', 'ignore', 'chunk'])
test = ConllCorpusReader('CoNLL-2003', 'eng.testa', ['words', 'pos', 'ignore', 'chunk'])

如何在python crfsuite中使用Conll 2003语料库

问题描述

1 个解决方案

解决方案1
0 2018-12-10 15:47:46

如何在python crfsuite中使用Conll 2003语料库

问题描述

1 个解决方案

解决方案1 0 2018-12-10 15:47:46

解决方案1
0 2018-12-10 15:47:46