簡體   English   中英

使用沒有神經網絡的預訓練單詞向量進行文本分類

[英]Text Classification using Pre-trained Word vectors without a neural network

背景:我一直在評估數據集上的各種文本分類方法,包括使用從字數和TF-IDF派生的特征向量,然后通過各種分類器運行它們。 我的數據集非常小(大約2300個句子和大約5個類),並且考慮到上述方法將不同的方法視為完全獨立,因此想使用詞向量方法進行分類。 我使用淺神經網絡的預訓練詞向量,但收效甚微。

問題:我正在尋找一種使用單詞向量對我的句子進行分類的替代方法,並考慮過將一個單詞向量用於一個句子,將它們組合成一個向量,然后考慮句子向量的每個類別的質心-然后分類通過新句子和形心之間的距離測量來發生。

給定我的小型數據集,如何將單詞向量組合成“句子向量”?

word2vecs的一個重要功能是您可以對它們執行簡單的操作。 從單詞到句子的一種常見方法是簡單地對句子中所有單詞的單詞向量取平均值。

由於您的樣本數據很小,因此我將使用Gensim數據中的相關嵌入,使用您自己的樣本進行重新訓練,最后使用更簡單的分類器(例如邏輯回歸)。

就Nathan而言,如果您想對文檔進行分類,則Doc2Vec是Word2Vec的重要擴展,它減少了很多步驟。 通過幾次迭代,您實際上可以達到非常好的結果。 是Doc2Vec的出色實現。

基本上,您需要先知道在哪里拆分句子,然后才能為這些句子使用doc2vec模型。

https://radimrehurek.com/gensim/models/doc2vec.html

  1. 確定句子邊界在哪里
  2. 模型句子拆分
  3. 在句子上訓練Doc2Vec模型
  4. 將句子向量輸入到NN模型

我已經取得了有限的成功。 您的語料庫很小,但是您可以隨時嘗試一下,然后進行測試/驗證/評估!

祝好運

為此,我將使用gensim的Paragraph Vector Doc2Vec實現。 我剛剛寫了一篇文章,描述如何使用它對電影評論進行分類,這可能會對您有所幫助!

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM