繁体   English   中英

读取培训数据时失败:tagger.cpp(393)CRF ++

[英]faliure in reading training data: tagger.cpp (393) CRF++

当我在训练数据(train.txt)上运行CRF ++时,出现以下错误

C:\Users\2012\Desktop\CRF_Software_Package\CRF++-0.58>crf_learn template train.d
ata model
CRF++: Yet Another CRF Tool Kit
Copyright (C) 2005-2013 Taku Kudo, All rights reserved.

reading training data: tagger.cpp(393) [feature_index_->buildFeatures(this)]
0.00 s

我的训练数据包含Unicode字符,并且使用记事本保存了数据(编码= Unicode大印第安语)

我不确定模板或培训数据格式是否有问题。 如何查看训练数据的格式?

我认为这是由于您的模板文件。 请检查您是否已将最后一栏(黄金标准)列为培训功能。 列索引从0开始。例如,如果BIO文件中有6列。 模板不应包含%x [0,5]

问题在于模板文件,请检查您的功能是否有不正确的“语法”,即U10:%x [-1,0] /%[0,0]

您意识到在第二个%之后缺少“ x”,校正后的行应类似于U10以下的行:%x [-1,0] /%x [0,0]

我遇到了同样的问题,文件使用UTF-8,模板文件和培训文件绝对采用正确的格式。 原因是CRFPP期望输入文件中最多包含1024列。 如果在这种情况下会输出适当的错误消息,那就太好了。

问题不在于Unicode编码,而在于模板文件。

看看这个类似的问题: 使用CRF + 0.58火车NE模型的失败

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM