[英]Text Classification using Pre-trained Word vectors without a neural network
背景:我一直在评估数据集上的各种文本分类方法,包括使用从字数和TF-IDF派生的特征向量,然后通过各种分类器运行它们。 我的数据集非常小(大约2300个句子和大约5个类),并且考虑到上述方法将不同的方法视为完全独立,因此想使用词向量方法进行分类。 我使用浅神经网络的预训练词向量,但收效甚微。
问题:我正在寻找一种使用单词向量对我的句子进行分类的替代方法,并考虑过将一个单词向量用于一个句子,将它们组合成一个向量,然后考虑句子向量的每个类别的质心-然后分类通过新句子和形心之间的距离测量来发生。
给定我的小型数据集,如何将单词向量组合成“句子向量”?
基本上,您需要先知道在哪里拆分句子,然后才能为这些句子使用doc2vec模型。
https://radimrehurek.com/gensim/models/doc2vec.html
我已经取得了有限的成功。 您的语料库很小,但是您可以随时尝试一下,然后进行测试/验证/评估!
祝好运
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.