繁体   English   中英

词嵌入+其他特征是否可能用于分类问题?

[英]Is word embedding + other features possible for classification problem?

我的任务是为评论数据集创建分类器模型。 我有 15000 次列车观察、5000 次开发和 5000 次测试。

该任务指定需要使用 3 个特征:我使用了TFIDF (那里有 5000 个特征)、 BOW (另外 2000 个特征)和review length (另外 1 个特征)。 因此,例如,我的 X_train 是一个数组形状 (15000,7001)。

我正在调查,我发现词嵌入(尤其是word2vec )可能是 BOW 的一个不错的替代品。 我的问题是,除了我的其他功能之外,它还可以使用吗(可以将它放在与我的其他功能相同的“数组”格式中吗?)?

我对此做了一些研究,但没有完全回答我的问题。

您绝对可以将嵌入与其他特征连接起来,并将其作为模型的输入。

在语音域中,例如在Personal VAD中完成了此操作,其中将说话者的嵌入与描述语音的其他特征连接起来,以确定目标说话者是否在给定的音频中说话。

我很确定同样的方法可以并且已经应用​​于除语音之外的其他机器学习应用领域(很确定我在 NLP 中看到过它,但现在无法提出任何论文)。

归根结底,您只为模型提供了额外的信息。 如果该信息无用,那么理想情况下,您的模型会计算出该信息并将相应的权重设置为零。 然而,实际上你只是让训练任务变得更加复杂,最终可能会得到一个更糟糕的模型(如果特征不是那么有用,或者模型不够复杂,无法捕捉输入和输出之间的关系)。

无论哪种方式,机器学习(尤其是深度学习)都部分(或大部分)是反复试验。 并不是所有的东西都在理论上很好地建立到有人会告诉你“这会起作用”的地步。 如果您的模型能够找出输入和输出之间的关系并学习适当的映射函数,则取决于您的数据集、模型和您为训练设置所做的选择。 自己尝试一下,看看它是否适合你。

理论上是的

文本语料库中的每个文档(比如句子)都可以量化为一个数组。 添加所有这些数组你得到一个矩阵。 假设这个量化使用的是 BOW,现在您想应用 word2vec,唯一需要确保的是您的数组(单个句子的量化表示)与 BOW 数组的长度相同。 只需按行添加它们即可。 (这是理论上,有更好的池化方法来结合它)还有一些整洁的 sklearn 模块,看看pipeline

然而,有时将 tf-idf 和 BOW 结合起来会是一种矫枉过正(取决于当然的数据),您可以获得太多冗余信息。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM