繁体 English 中英

词嵌入+其他特征是否可能用于分类问题？

[英]Is word embedding + other features possible for classification problem?

原文 2019-12-18 11:58:47 5 2 python/ machine-learning/ scikit-learn/ text-classification/ sklearn-pandas

我的任务是为评论数据集创建分类器模型。 我有 15000 次列车观察、5000 次开发和 5000 次测试。

该任务指定需要使用 3 个特征：我使用了TFIDF （那里有 5000 个特征）、 BOW （另外 2000 个特征）和review length （另外 1 个特征）。 因此，例如，我的 X_train 是一个数组形状 (15000,7001)。

我正在调查，我发现词嵌入（尤其是word2vec ）可能是 BOW 的一个不错的替代品。 我的问题是，除了我的其他功能之外，它还可以使用吗（可以将它放在与我的其他功能相同的“数组”格式中吗？）？

我对此做了一些研究，但没有完全回答我的问题。

2 个解决方案

您绝对可以将嵌入与其他特征连接起来，并将其作为模型的输入。

在语音域中，例如在Personal VAD中完成了此操作，其中将说话者的嵌入与描述语音的其他特征连接起来，以确定目标说话者是否在给定的音频中说话。

我很确定同样的方法可以并且已经应用于除语音之外的其他机器学习应用领域（很确定我在 NLP 中看到过它，但现在无法提出任何论文）。

归根结底，您只为模型提供了额外的信息。 如果该信息无用，那么理想情况下，您的模型会计算出该信息并将相应的权重设置为零。 然而，实际上你只是让训练任务变得更加复杂，最终可能会得到一个更糟糕的模型（如果特征不是那么有用，或者模型不够复杂，无法捕捉输入和输出之间的关系）。

无论哪种方式，机器学习（尤其是深度学习）都部分（或大部分）是反复试验。 并不是所有的东西都在理论上很好地建立到有人会告诉你“这会起作用”的地步。 如果您的模型能够找出输入和输出之间的关系并学习适当的映射函数，则取决于您的数据集、模型和您为训练设置所做的选择。 自己尝试一下，看看它是否适合你。

理论上是的。

文本语料库中的每个文档（比如句子）都可以量化为一个数组。 添加所有这些数组你得到一个矩阵。 假设这个量化使用的是 BOW，现在您想应用 word2vec，唯一需要确保的是您的数组（单个句子的量化表示）与 BOW 数组的长度相同。 只需按行添加它们即可。 （这是理论上，有更好的池化方法来结合它）还有一些整洁的 sklearn 模块，看看pipeline 。

然而，有时将 tf-idf 和 BOW 结合起来会是一种矫枉过正（取决于当然的数据），您可以获得太多冗余信息。

如何使用词嵌入和特征进行文本分类

[英]How to use word embedding and feature for text classification

在运行时将功能连接到单词嵌入到输入层

[英]Concatenating features to word embedding at the input layer during run time

SVM分类任务中word2vec功能的输入格式是什么？

[英]What is the input format for word2vec features in SVM classification task?

带单词嵌入的Keras多标签分类中的维数问题

[英]Dimension Problem in Keras Multilabel Classification with Word Embeddings

Sklearn + Gensim：如何使用Gensim的Word2Vec嵌入进行Sklearn文本分类

[英]Sklearn+Gensim: How to use Gensim's Word2Vec embedding for Sklearn text classification

我们如何使用随机森林进行词嵌入的句子分类

[英]How do we use a Random Forest for sentence-classification using word-embedding

如何使用词嵌入作为 CRF (sklearn-crfsuite) model 训练的特征

[英]How to use word embedding as features for CRF (sklearn-crfsuite) model training

将文本特征分解为分类

[英]Factorizing text features for classification

基于类别特征的分类

[英]Classification based on categorical features

对 NLP 文本分类问题使用带有嵌入和线性层的 BatchNorm1d 层会引发 RuntimeError

[英]Using BatchNorm1d layer with Embedding and Linear layers for NLP text-classification problem throws RuntimeError

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何使用词嵌入和特征进行文本分类在运行时将功能连接到单词嵌入到输入层 SVM分类任务中word2vec功能的输入格式是什么？带单词嵌入的Keras多标签分类中的维数问题 Sklearn + Gensim：如何使用Gensim的Word2Vec嵌入进行Sklearn文本分类我们如何使用随机森林进行词嵌入的句子分类如何使用词嵌入作为 CRF (sklearn-crfsuite) model 训练的特征将文本特征分解为分类基于类别特征的分类对 NLP 文本分类问题使用带有嵌入和线性层的 BatchNorm1d 层会引发 RuntimeError

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM