[英]Multiclass classification of text in R
我為多類文本分類建立了一個隨機森林。 該模型返回的准確度為75%。 有6個標簽,但是在6個類別中,只有3個被分類,其余未被分類。 如果有人能讓我知道出了什么問題,我將不勝感激。
以下是我遵循的步驟。
資料准備
創建用於描述的單詞向量。
使用單詞vector建立語料庫。
預處理任務,例如刪除數字,空格,
停用詞並轉換為小寫。
從上述dtm中刪除稀疏單詞。
上面的步驟將導致一個計數頻率矩陣,該矩陣顯示每個單詞在其核心對應列中的頻率。
將計數頻率矩陣轉換為二進制實例矩陣,該矩陣將文檔中某個單詞的出現顯示為0或1,表示存在的單詞為1,不存在的單詞為0。
建築模型
在訓練集和測試集上檢查模型的准確性。
我正在共享指向結果的鏈接(如果此處允許)。
提高准確性可能有很多可能性: 1.嘗試增加具有少於1000個實例的類的大小。 2.嘗試使用多個刪除稀疏項閾值,例如; 0.991、0.99、0.999等,並相應地檢查您的准確性3.使用詞干分析,它用於為您提供單詞的詞根形式。4.您僅在創建dtm時使用術語頻率(TF)。 嘗試簡單地通過添加以及使用tfidf得分。
tdm <- DocumentTermMatrix(corpus,
control = list(weighting = function(x) weightTfIdf(x, normalize = FALSE),stopwords = TRUE))
5.嘗試使用其他類似的包; 來自mlr的人使用護林員來訓練RandomForest。
我希望這個對你有用。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.