读取培训数据时失败：tagger.cpp（393）CRF ++

Question

当我在训练数据（train.txt）上运行CRF ++时，出现以下错误

C:\Users\2012\Desktop\CRF_Software_Package\CRF++-0.58>crf_learn template train.d
ata model
CRF++: Yet Another CRF Tool Kit
Copyright (C) 2005-2013 Taku Kudo, All rights reserved.

reading training data: tagger.cpp(393) [feature_index_->buildFeatures(this)]
0.00 s

我的训练数据包含Unicode字符，并且使用记事本保存了数据（编码= Unicode大印第安语）

我不确定模板或培训数据格式是否有问题。 如何查看训练数据的格式？

Answer 1

我认为这是由于您的模板文件。 请检查您是否已将最后一栏（黄金标准）列为培训功能。 列索引从0开始。例如，如果BIO文件中有6列。 模板不应包含％x [0,5]

Answer 2

问题在于模板文件，请检查您的功能是否有不正确的“语法”，即U10：％x [-1,0] /％[0,0]

您意识到在第二个％之后缺少“ x”，校正后的行应类似于U10以下的行：％x [-1,0] /％x [0,0]

Answer 3

我遇到了同样的问题，文件使用UTF-8，模板文件和培训文件绝对采用正确的格式。 原因是CRFPP期望输入文件中最多包含1024列。 如果在这种情况下会输出适当的错误消息，那就太好了。

Answer 4

问题不在于Unicode编码，而在于模板文件。

看看这个类似的问题：使用CRF + 0.58火车NE模型的失败

读取培训数据时失败：tagger.cpp（393）CRF ++

问题描述

4 个解决方案

解决方案1
3 2013-06-11 03:36:24

解决方案2
0 2015-05-17 14:21:09

解决方案3
0 2016-02-16 09:42:23

解决方案4
0 2017-05-08 17:50:10

读取培训数据时失败：tagger.cpp（393）CRF ++

问题描述

4 个解决方案

解决方案1 3 2013-06-11 03:36:24

解决方案2 0 2015-05-17 14:21:09

解决方案3 0 2016-02-16 09:42:23

解决方案4 0 2017-05-08 17:50:10

解决方案1
3 2013-06-11 03:36:24

解决方案2
0 2015-05-17 14:21:09

解决方案3
0 2016-02-16 09:42:23

解决方案4
0 2017-05-08 17:50:10