簡體   English   中英

R中文本的多類分類

[英]Multiclass classification of text in R

我為多類文本分類建立了一個隨機森林。 該模型返回的准確度為75%。 有6個標簽,但是在6個類別中,只有3個被分類,其余未被分類。 如果有人能讓我知道出了什么問題,我將不勝感激。

以下是我遵循的步驟。

資料准備

  • 創建用於描述的單詞向量。

  • 使用單詞vector建立語料庫。

  • 預處理任務,例如刪除數字,空格,
    停用詞並轉換為小寫。

  • 建立文檔術語矩陣(dtm)。
  • 從上述dtm中刪除稀疏單詞。

  • 上面的步驟將導致一個計數頻率矩陣,該矩陣顯示每個單詞在其核心對應列中的頻率。

  • 將計數頻率矩陣轉換為二進制實例矩陣,該矩陣將文檔中某個單詞的出現顯示為0或1,表示存在的單詞為1,不存在的單詞為0。

  • 用轉換后的dtm附加原始數據集中的label列。 標簽列有6個標簽。

建築模型

  • 隨機采樣dtm並將其分為轉換集和測試集。
  • 使用7倍交叉驗證構建隨機森林的基本模型。
  • 在訓練集和測試集上檢查模型的准確性。

    我正在共享指向結果的鏈接(如果此處允許)。

    http://rpubs.com/shanmukha_karthik/346007

提高准確性可能有很多可能性: 1.嘗試增加具有少於1000個實例的類的大小。 2.嘗試使用多個刪除稀疏項閾值,例如; 0.991、0.99、0.999等,並相應地檢查您的准確性3.使用詞干分析,它用於為您提供單詞的詞根形式。4.您僅在創建dtm時使用術語頻率(TF)。 嘗試簡單地通過添加以及使用tfidf得分。

tdm <- DocumentTermMatrix(corpus,
       control = list(weighting = function(x) weightTfIdf(x, normalize = FALSE),stopwords = TRUE))

5.嘗試使用其他類似的包; 來自mlr的人使用護林員來訓練RandomForest。

我希望這個對你有用。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM