繁体   English   中英

在进行文本分类时,训练和测试文本在被标记化后需要具有相同的形状

[英]When doing text classification do the train and test text need to have the same shape after being tokenized

我正在重新审视我使用路透社数据集所做的一个项目,虽然我的模型有一些轻微的过度拟合,但训练准确度为 99,验证为 96 左右。当我在测试数据上评估模型时,我的准确度约为 27%。 所以我想知道这是不是因为训练和测试数据的形状不同。

print(one_hot_train_results.shape)
print(one_hot_test_results.shape)

回来

(5485, 10000) (2189, 10000)

通常,如果您的形状错误,您应该得到一个错误,而不仅仅是性能不佳。

形状是否需要相同取决于您使用的模型类型。 有些模型可以接受任意长度的输入,有些模型只能处理固定长度的东西,并且需要使用填充或某种方式组合过长的文档。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM