繁体   English   中英

使用没有神经网络的预训练单词向量进行文本分类

[英]Text Classification using Pre-trained Word vectors without a neural network

背景:我一直在评估数据集上的各种文本分类方法,包括使用从字数和TF-IDF派生的特征向量,然后通过各种分类器运行它们。 我的数据集非常小(大约2300个句子和大约5个类),并且考虑到上述方法将不同的方法视为完全独立,因此想使用词向量方法进行分类。 我使用浅神经网络的预训练词向量,但收效甚微。

问题:我正在寻找一种使用单词向量对我的句子进行分类的替代方法,并考虑过将一个单词向量用于一个句子,将它们组合成一个向量,然后考虑句子向量的每个类别的质心-然后分类通过新句子和形心之间的距离测量来发生。

给定我的小型数据集,如何将单词向量组合成“句子向量”?

word2vecs的一个重要功能是您可以对它们执行简单的操作。 从单词到句子的一种常见方法是简单地对句子中所有单词的单词向量取平均值。

由于您的样本数据很小,因此我将使用Gensim数据中的相关嵌入,使用您自己的样本进行重新训练,最后使用更简单的分类器(例如逻辑回归)。

就Nathan而言,如果您想对文档进行分类,则Doc2Vec是Word2Vec的重要扩展,它减少了很多步骤。 通过几次迭代,您实际上可以达到非常好的结果。 是Doc2Vec的出色实现。

基本上,您需要先知道在哪里拆分句子,然后才能为这些句子使用doc2vec模型。

https://radimrehurek.com/gensim/models/doc2vec.html

  1. 确定句子边界在哪里
  2. 模型句子拆分
  3. 在句子上训练Doc2Vec模型
  4. 将句子向量输入到NN模型

我已经取得了有限的成功。 您的语料库很小,但是您可以随时尝试一下,然后进行测试/验证/评估!

祝好运

为此,我将使用gensim的Paragraph Vector Doc2Vec实现。 我刚刚写了一篇文章,描述如何使用它对电影评论进行分类,这可能会对您有所帮助!

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM