簡體   English   中英

使用 Word2Vec 進行文本分類

[英]Text classification using Word2Vec

我很難理解 Word2Vec。 我需要根據用戶在幫助台系統中的抱怨進行幫助台文本分類。 每個句子都有自己的 class。

我在互聯網上看到了一些預先訓練好的 word2vec 文件,但我不知道這是否是最好的工作方式,因為我的問題非常具體。 我的數據集是葡萄牙語的。

我正在考慮我將不得不創建自己的 model 並且我對如何做到這一點感到懷疑。 我是否必須使用與我的句子和類的數據集相同的單詞?

在第一行,列標題。 在第一行下面,我有句子和 class。 有人可以幫我嗎? 我看到 Gensin 創建矢量模型,聽起來不錯。 但我完全迷失了。

: chamado,classe 'Prezados não estou conseguindo gerar uma nota finance do módulo de estoque e custos.','ERP GESTÃO','Não consigo acessar o ERP com meu usuário e senha.','ERP GESTãO', ERP gerar receituário no módulo de Medicina e segurança do trabalho.','ERP GESTÃO', 'O produto 4589658 tinta holográfica não está disponível no EIC e não consigo gerar a PO.','ERP GESTÃO',

您的詢問非常籠統,通常當您嘗試特定的事情並遇到特定的問題時,StackOverflow 會更有幫助 - 這樣您就可以提供准確的代碼、錯誤或不足之處來詢問。

但總的來說:

  • 您可能根本不需要 word2vec:有許多文本分類方法,只要有足夠的訓練數據,就可以在不使用詞向量的情況下將您的文本分配給有用的類。 您可能想先嘗試這些,然后將詞向量視為以后的改進。

  • 為了使詞向量有用,它們需要基於您的實際語言,並且理想情況下也是您的特定關注領域。 來自新聞文章甚至 Wikipedia 的通用詞向量可能不包含重要的術語和問題的詞義。 但是訓練你自己的詞向量並不難——你只需要大量不同的、相關的文本,這些文本在現實、相關的上下文中使用這些詞。 所以是的,理想情況下,你會在最終想要分類的相同文本上訓練你的詞向量。

但大多數情況下,如果您“完全迷失”,請從更簡單的文本分類示例開始。 當您使用 Python 時,基於 scikit-learn 的示例可能最相關。 使這些適應您的數據和目標,以熟悉所有步驟和評估您的更改是否改善最終結果的方法。 然后研究諸如詞向量之類的技術。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM