簡體 English 中英

使用沒有神經網絡的預訓練單詞向量進行文本分類

[英]Text Classification using Pre-trained Word vectors without a neural network

原文 2019-01-29 20:55:27 3 3 python/ text/ classification/ embedding

背景：我一直在評估數據集上的各種文本分類方法，包括使用從字數和TF-IDF派生的特征向量，然后通過各種分類器運行它們。 我的數據集非常小（大約2300個句子和大約5個類），並且考慮到上述方法將不同的方法視為完全獨立，因此想使用詞向量方法進行分類。 我使用淺神經網絡的預訓練詞向量，但收效甚微。

問題：我正在尋找一種使用單詞向量對我的句子進行分類的替代方法，並考慮過將一個單詞向量用於一個句子，將它們組合成一個向量，然后考慮句子向量的每個類別的質心-然后分類通過新句子和形心之間的距離測量來發生。

給定我的小型數據集，如何將單詞向量組合成“句子向量”？

3 個解決方案

word2vecs的一個重要功能是您可以對它們執行簡單的操作。 從單詞到句子的一種常見方法是簡單地對句子中所有單詞的單詞向量取平均值。

由於您的樣本數據很小，因此我將使用Gensim數據中的相關嵌入，使用您自己的樣本進行重新訓練，最后使用更簡單的分類器（例如邏輯回歸）。

就Nathan而言，如果您想對文檔進行分類，則Doc2Vec是Word2Vec的重要擴展，它減少了很多步驟。 通過幾次迭代，您實際上可以達到非常好的結果。 這是Doc2Vec的出色實現。

基本上，您需要先知道在哪里拆分句子，然后才能為這些句子使用doc2vec模型。

https://radimrehurek.com/gensim/models/doc2vec.html

確定句子邊界在哪里
模型句子拆分
在句子上訓練Doc2Vec模型
將句子向量輸入到NN模型

我已經取得了有限的成功。 您的語料庫很小，但是您可以隨時嘗試一下，然后進行測試/驗證/評估！

祝好運

為此，我將使用gensim的Paragraph Vector Doc2Vec實現。 我剛剛寫了一篇文章，描述如何使用它對電影評論進行分類，這可能會對您有所幫助！

用於文本分類的預訓練模型

[英]Pre-Trained models for text Classification

Gensim word2vec 擴充或合並預訓練向量

[英]Gensim word2vec augment or merge pre-trained vectors

如何在 FastText 中使用預先訓練好的詞向量？

[英]How to use pre-trained word vectors in FastText?

使用預訓練的 BERT 模型進行錯誤多類文本分類

[英]Error multiclass text classification with pre-trained BERT model

如何使用預訓練模型進行文本分類？比較經過微調的 model 與未經微調的預訓練 model

[英]How to use pre-trained models for text classification？Comparing a fine-tuned model with a pre-trained model without fine-tuning

如何使用預訓練模型對新數據進行分類 - Python 文本分類（NLTK 和 Scikit）

[英]How to classify new data using a pre-trained model - Python Text Classification (NLTK and Scikit)

在Python中使用MXNet預訓練圖像分類模型

[英]Using MXNet pre-trained image classification model in Python

使用神經網絡的文本分類

[英]Text Classification Using Neural Network

在keras模型中使用預先訓練的單詞嵌入？

[英]Using pre-trained word embeddings in a keras model?

在 Keras 中平均一個句子的詞向量 - 預訓練詞嵌入

[英]averaging a sentence’s word vectors in Keras- Pre-trained Word Embedding

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 用於文本分類的預訓練模型 Gensim word2vec 擴充或合並預訓練向量如何在 FastText 中使用預先訓練好的詞向量？使用預訓練的 BERT 模型進行錯誤多類文本分類如何使用預訓練模型進行文本分類？比較經過微調的 model 與未經微調的預訓練 model 如何使用預訓練模型對新數據進行分類 - Python 文本分類（NLTK 和 Scikit）在Python中使用MXNet預訓練圖像分類模型使用神經網絡的文本分類在keras模型中使用預先訓練的單詞嵌入？在 Keras 中平均一個句子的詞向量 - 預訓練詞嵌入

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM