R中文本的多類分類

Question

我為多類文本分類建立了一個隨機森林。 該模型返回的准確度為75％。 有6個標簽，但是在6個類別中，只有3個被分類，其余未被分類。 如果有人能讓我知道出了什么問題，我將不勝感激。

以下是我遵循的步驟。

資料准備

創建用於描述的單詞向量。
使用單詞vector建立語料庫。
預處理任務，例如刪除數字，空格，
停用詞並轉換為小寫。
建立文檔術語矩陣（dtm）。
從上述dtm中刪除稀疏單詞。
上面的步驟將導致一個計數頻率矩陣，該矩陣顯示每個單詞在其核心對應列中的頻率。
將計數頻率矩陣轉換為二進制實例矩陣，該矩陣將文檔中某個單詞的出現顯示為0或1，表示存在的單詞為1，不存在的單詞為0。
用轉換后的dtm附加原始數據集中的label列。 標簽列有6個標簽。

建築模型

隨機采樣dtm並將其分為轉換集和測試集。
使用7倍交叉驗證構建隨機森林的基本模型。
在訓練集和測試集上檢查模型的准確性。
我正在共享指向結果的鏈接（如果此處允許）。
http://rpubs.com/shanmukha_karthik/346007

Answer 1

提高准確性可能有很多可能性： 1.嘗試增加具有少於1000個實例的類的大小。 2.嘗試使用多個刪除稀疏項閾值，例如； 0.991、0.99、0.999等，並相應地檢查您的准確性3.使用詞干分析，它用於為您提供單詞的詞根形式。4.您僅在創建dtm時使用術語頻率（TF）。 嘗試簡單地通過添加以及使用tfidf得分。

tdm <- DocumentTermMatrix(corpus,
       control = list(weighting = function(x) weightTfIdf(x, normalize = FALSE),stopwords = TRUE))

5.嘗試使用其他類似的包； 來自mlr的人使用護林員來訓練RandomForest。

我希望這個對你有用。

R中文本的多類分類

問題描述

1 個解決方案

解決方案1
0 2018-04-20 13:17:20

R中文本的多類分類

問題描述

1 個解決方案

解決方案1 0 2018-04-20 13:17:20

解決方案1
0 2018-04-20 13:17:20