繁体 English 中英

使用没有神经网络的预训练单词向量进行文本分类

[英]Text Classification using Pre-trained Word vectors without a neural network

原文 2019-01-29 20:55:27 8 3 python/ text/ classification/ embedding

背景：我一直在评估数据集上的各种文本分类方法，包括使用从字数和TF-IDF派生的特征向量，然后通过各种分类器运行它们。 我的数据集非常小（大约2300个句子和大约5个类），并且考虑到上述方法将不同的方法视为完全独立，因此想使用词向量方法进行分类。 我使用浅神经网络的预训练词向量，但收效甚微。

问题：我正在寻找一种使用单词向量对我的句子进行分类的替代方法，并考虑过将一个单词向量用于一个句子，将它们组合成一个向量，然后考虑句子向量的每个类别的质心-然后分类通过新句子和形心之间的距离测量来发生。

给定我的小型数据集，如何将单词向量组合成“句子向量”？

3 个解决方案

word2vecs的一个重要功能是您可以对它们执行简单的操作。 从单词到句子的一种常见方法是简单地对句子中所有单词的单词向量取平均值。

由于您的样本数据很小，因此我将使用Gensim数据中的相关嵌入，使用您自己的样本进行重新训练，最后使用更简单的分类器（例如逻辑回归）。

就Nathan而言，如果您想对文档进行分类，则Doc2Vec是Word2Vec的重要扩展，它减少了很多步骤。 通过几次迭代，您实际上可以达到非常好的结果。 这是Doc2Vec的出色实现。

基本上，您需要先知道在哪里拆分句子，然后才能为这些句子使用doc2vec模型。

https://radimrehurek.com/gensim/models/doc2vec.html

确定句子边界在哪里
模型句子拆分
在句子上训练Doc2Vec模型
将句子向量输入到NN模型

我已经取得了有限的成功。 您的语料库很小，但是您可以随时尝试一下，然后进行测试/验证/评估！

祝好运

为此，我将使用gensim的Paragraph Vector Doc2Vec实现。 我刚刚写了一篇文章，描述如何使用它对电影评论进行分类，这可能会对您有所帮助！

用于文本分类的预训练模型

[英]Pre-Trained models for text Classification

Gensim word2vec 扩充或合并预训练向量

[英]Gensim word2vec augment or merge pre-trained vectors

如何在 FastText 中使用预先训练好的词向量？

[英]How to use pre-trained word vectors in FastText?

使用预训练的 BERT 模型进行错误多类文本分类

[英]Error multiclass text classification with pre-trained BERT model

如何使用预训练模型进行文本分类？比较经过微调的 model 与未经微调的预训练 model

[英]How to use pre-trained models for text classification？Comparing a fine-tuned model with a pre-trained model without fine-tuning

如何使用预训练模型对新数据进行分类 - Python 文本分类（NLTK 和 Scikit）

[英]How to classify new data using a pre-trained model - Python Text Classification (NLTK and Scikit)

在Python中使用MXNet预训练图像分类模型

[英]Using MXNet pre-trained image classification model in Python

使用神经网络的文本分类

[英]Text Classification Using Neural Network

在keras模型中使用预先训练的单词嵌入？

[英]Using pre-trained word embeddings in a keras model?

在 Keras 中平均一个句子的词向量 - 预训练词嵌入

[英]averaging a sentence’s word vectors in Keras- Pre-trained Word Embedding

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 用于文本分类的预训练模型 Gensim word2vec 扩充或合并预训练向量如何在 FastText 中使用预先训练好的词向量？使用预训练的 BERT 模型进行错误多类文本分类如何使用预训练模型进行文本分类？比较经过微调的 model 与未经微调的预训练 model 如何使用预训练模型对新数据进行分类 - Python 文本分类（NLTK 和 Scikit）在Python中使用MXNet预训练图像分类模型使用神经网络的文本分类在keras模型中使用预先训练的单词嵌入？在 Keras 中平均一个句子的词向量 - 预训练词嵌入

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM