簡體   English   中英

使用R的多類別文字分類

[英]Multiclass text classification using R

我正在研究多類文本分類問題。 我已經為它建立了一個梯度提升模型。

關於數據集:

數據集有兩列:“ Test_name”和“ Description”

Test_Name列中有六個標簽,“ Description”列中有它們的相應描述。

我對這個問題的看法

資料准備

  1. 創建用於描述的單詞向量。

  2. 使用單詞vector建立語料庫。

  3. 預處理任務,例如刪除數字,空格,停用詞以及轉換為小寫字母。

  4. 建立文檔術語矩陣(dtm)。

  5. 從上述dtm中刪除稀疏單詞。

  6. 上面的步驟將導致一個計數頻率矩陣,該矩陣顯示每個單詞在其核心對應列中的頻率。

  7. 將計數頻率矩陣轉換為二進制實例矩陣,該矩陣將文檔中某個單詞的出現顯示為0或1,表示存在的單詞為1,不存在的單詞為0。

  8. 使用轉換后的dtm附加原始注釋數據集中的標簽列。 標簽列有6個標簽。

建築模型

使用H2o包,構建一個gbm模型。

獲得的結果

分類標簽中的四個分類良好,而其余兩個分類則分類不佳。

以下是輸出:

Extract training frame with `h2o.getFrame("train")`
MSE: (Extract with `h2o.mse`) 0.1197392
RMSE: (Extract with `h2o.rmse`) 0.3460335
Logloss: (Extract with `h2o.logloss`) 0.3245868
Mean Per-Class Error: 0.3791268
Confusion Matrix: Extract with `h2o.confusionMatrix(<model>,train = TRUE)`)

Body Fluid Analysis =   401 / 2,759
Cytology Test       =   182 / 1,087
Diagnostic Imaging  =   117 / 3,907
Doctors Advice      =      32 / 752
Organ Function Test =     461 / 463
Patient Related     =     101 / 113
Totals              = 1,294 / 9,081

器官功能測試和患者相關的錯誤分類錯誤相對較高。 我怎樣才能解決這個問題?

您可以做一些快速的事情來改善這一點:

如果您提供更多詳細信息和有效示例,則可以做更多的事情來幫助您。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM