使用R的多類別文字分類

Question

我正在研究多類文本分類問題。 我已經為它建立了一個梯度提升模型。

關於數據集：

數據集有兩列：“ Test_name”和“ Description”

Test_Name列中有六個標簽，“ Description”列中有它們的相應描述。

我對這個問題的看法

資料准備

創建用於描述的單詞向量。
使用單詞vector建立語料庫。
預處理任務，例如刪除數字，空格，停用詞以及轉換為小寫字母。
建立文檔術語矩陣（dtm）。
從上述dtm中刪除稀疏單詞。
上面的步驟將導致一個計數頻率矩陣，該矩陣顯示每個單詞在其核心對應列中的頻率。
將計數頻率矩陣轉換為二進制實例矩陣，該矩陣將文檔中某個單詞的出現顯示為0或1，表示存在的單詞為1，不存在的單詞為0。
使用轉換后的dtm附加原始注釋數據集中的標簽列。 標簽列有6個標簽。

建築模型

使用H2o包，構建一個gbm模型。

獲得的結果

分類標簽中的四個分類良好，而其余兩個分類則分類不佳。

以下是輸出：

Extract training frame with `h2o.getFrame("train")`
MSE: (Extract with `h2o.mse`) 0.1197392
RMSE: (Extract with `h2o.rmse`) 0.3460335
Logloss: (Extract with `h2o.logloss`) 0.3245868
Mean Per-Class Error: 0.3791268
Confusion Matrix: Extract with `h2o.confusionMatrix(<model>,train = TRUE)`)

Body Fluid Analysis =   401 / 2,759
Cytology Test       =   182 / 1,087
Diagnostic Imaging  =   117 / 3,907
Doctors Advice      =      32 / 752
Organ Function Test =     461 / 463
Patient Related     =     101 / 113
Totals              = 1,294 / 9,081

器官功能測試和患者相關的錯誤分類錯誤相對較高。 我怎樣才能解決這個問題？

Answer 1

您可以做一些快速的事情來改善這一點：

查看驗證集上的性能指標，包括混淆矩陣
也許嘗試超參數調整以提高您的任務性能（使用h2o.grid ： http : //docs.h2o.ai/h2o/latest-stable/h2o-docs/grid-search.html ）
考慮使用h2o.word2vec進行特征生成（文檔： https : //github.com/h2oai/h2o-3/blob/master/h2o-r/demos/rdemo.word2vec.craigslistjobtitles.R和示例： https：// github .com / h2oai / h2o-3 / blob / master / h2o-r / demos / rdemo.word2vec.craigslistjobtitles.R ）

如果您提供更多詳細信息和有效示例，則可以做更多的事情來幫助您。

使用R的多類別文字分類

問題描述

我對這個問題的看法

資料准備

建築模型

獲得的結果

1 個解決方案

解決方案1
0 2018-02-07 13:34:00

使用R的多類別文字分類

問題描述

我對這個問題的看法

資料准備

建築模型

獲得的結果

1 個解決方案

解決方案1 0 2018-02-07 13:34:00

解決方案1
0 2018-02-07 13:34:00