繁体   English   中英

使用 Word2Vec 进行文本分类

[英]Text classification using Word2Vec

我很难理解 Word2Vec。 我需要根据用户在帮助台系统中的抱怨进行帮助台文本分类。 每个句子都有自己的 class。

我在互联网上看到了一些预先训练好的 word2vec 文件,但我不知道这是否是最好的工作方式,因为我的问题非常具体。 我的数据集是葡萄牙语的。

我正在考虑我将不得不创建自己的 model 并且我对如何做到这一点感到怀疑。 我是否必须使用与我的句子和类的数据集相同的单词?

在第一行,列标题。 在第一行下面,我有句子和 class。 有人可以帮我吗? 我看到 Gensin 创建矢量模型,听起来不错。 但我完全迷失了。

: chamado,classe 'Prezados não estou conseguindo gerar uma nota finance do módulo de estoque e custos.','ERP GESTÃO','Não consigo acessar o ERP com meu usuário e senha.','ERP GESTãO', ERP gerar receituário no módulo de Medicina e segurança do trabalho.','ERP GESTÃO', 'O produto 4589658 tinta holográfica não está disponível no EIC e não consigo gerar a PO.','ERP GESTÃO',

您的询问非常笼统,通常当您尝试特定的事情并遇到特定的问题时,StackOverflow 会更有帮助 - 这样您就可以提供准确的代码、错误或不足之处来询问。

但总的来说:

  • 您可能根本不需要 word2vec:有许多文本分类方法,只要有足够的训练数据,就可以在不使用词向量的情况下将您的文本分配给有用的类。 您可能想先尝试这些,然后将词向量视为以后的改进。

  • 为了使词向量有用,它们需要基于您的实际语言,并且理想情况下也是您的特定关注领域。 来自新闻文章甚至 Wikipedia 的通用词向量可能不包含重要的术语和问题的词义。 但是训练你自己的词向量并不难——你只需要大量不同的、相关的文本,这些文本在现实、相关的上下文中使用这些词。 所以是的,理想情况下,你会在最终想要分类的相同文本上训练你的词向量。

但大多数情况下,如果您“完全迷失”,请从更简单的文本分类示例开始。 当您使用 Python 时,基于 scikit-learn 的示例可能最相关。 使这些适应您的数据和目标,以熟悉所有步骤和评估您的更改是否改善最终结果的方法。 然后研究诸如词向量之类的技术。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM