[英]Text Classification using Pre-trained Word vectors without a neural network
背景:我一直在評估數據集上的各種文本分類方法,包括使用從字數和TF-IDF派生的特征向量,然后通過各種分類器運行它們。 我的數據集非常小(大約2300個句子和大約5個類),並且考慮到上述方法將不同的方法視為完全獨立,因此想使用詞向量方法進行分類。 我使用淺神經網絡的預訓練詞向量,但收效甚微。
問題:我正在尋找一種使用單詞向量對我的句子進行分類的替代方法,並考慮過將一個單詞向量用於一個句子,將它們組合成一個向量,然后考慮句子向量的每個類別的質心-然后分類通過新句子和形心之間的距離測量來發生。
給定我的小型數據集,如何將單詞向量組合成“句子向量”?
基本上,您需要先知道在哪里拆分句子,然后才能為這些句子使用doc2vec模型。
https://radimrehurek.com/gensim/models/doc2vec.html
我已經取得了有限的成功。 您的語料庫很小,但是您可以隨時嘗試一下,然后進行測試/驗證/評估!
祝好運
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.