簡體   English   中英

提高文本分類的准確性

[英]Improving Accuracy on Text Classification

我正在嘗試為文本分類任務找到一個模型。 我的樣本數量約為 4500 個句子,每個句子長度約為 50 個單詞。 我想對我的文本進行分類的類是 3 個,正面、負面和中性。 我使用了機器學習(SVM、RF、LR)並且我的准確率不超過 75%(我也完成了預處理部分)。 我想和深度神經網絡一起工作,也許經常使用,但我不知道從哪里開始。 您有什么建議才能達到最大的准確性? 我應該期望多少准確度? (ps我用的是python)

4500 個句子,每個 50 個詞的長度對於深度架構來說是不夠的。 你可以試着弄清楚,但我認為它不會奏效。
有了這么多數據,我建議您在嘗試過的算法(SVM、RF 等)的參數調整和詞嵌入上投入更多精力。 您如何在數字空間中表示您的數據? 使用非最先進方法的良好嵌入仍然可以顯示出出色的結果。
對於期望准確度的問題,如果我沒有看到數據,我無法告訴您這些信息。 但是,根據我自己的經驗,一個 3 類文本分類問題,每個句子都不會太長,可以以 80% 到 90%,甚至 98% 的准確率解決。 這在很大程度上取決於您的數據的本質

正面/負面/中性文本/評論分類是一項非常常見的任務,網絡上有許多數據集。 您可以使用其中的一些並擴展您的訓練數據集。 或者嘗試使用基於它們的預訓練模型。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM