[英]Multiclass text classification using R
我正在研究多類文本分類問題。 我已經為它建立了一個梯度提升模型。
關於數據集:
數據集有兩列:“ Test_name”和“ Description”
Test_Name列中有六個標簽,“ Description”列中有它們的相應描述。
創建用於描述的單詞向量。
使用單詞vector建立語料庫。
預處理任務,例如刪除數字,空格,停用詞以及轉換為小寫字母。
建立文檔術語矩陣(dtm)。
從上述dtm中刪除稀疏單詞。
上面的步驟將導致一個計數頻率矩陣,該矩陣顯示每個單詞在其核心對應列中的頻率。
將計數頻率矩陣轉換為二進制實例矩陣,該矩陣將文檔中某個單詞的出現顯示為0或1,表示存在的單詞為1,不存在的單詞為0。
使用轉換后的dtm附加原始注釋數據集中的標簽列。 標簽列有6個標簽。
使用H2o包,構建一個gbm模型。
分類標簽中的四個分類良好,而其余兩個分類則分類不佳。
以下是輸出:
Extract training frame with `h2o.getFrame("train")`
MSE: (Extract with `h2o.mse`) 0.1197392
RMSE: (Extract with `h2o.rmse`) 0.3460335
Logloss: (Extract with `h2o.logloss`) 0.3245868
Mean Per-Class Error: 0.3791268
Confusion Matrix: Extract with `h2o.confusionMatrix(<model>,train = TRUE)`)
Body Fluid Analysis = 401 / 2,759
Cytology Test = 182 / 1,087
Diagnostic Imaging = 117 / 3,907
Doctors Advice = 32 / 752
Organ Function Test = 461 / 463
Patient Related = 101 / 113
Totals = 1,294 / 9,081
器官功能測試和患者相關的錯誤分類錯誤相對較高。 我怎樣才能解決這個問題?
您可以做一些快速的事情來改善這一點:
h2o.grid
: http : //docs.h2o.ai/h2o/latest-stable/h2o-docs/grid-search.html ) 如果您提供更多詳細信息和有效示例,則可以做更多的事情來幫助您。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.