R-caret :: train“隨機森林”參數

Question

我正在嘗試使用插入符號包中的train（）fx對60個變量和約20,000個觀察值建立分類模型。 我正在使用隨機森林方法，並且在訓練集上返回了0.999准確性，但是，當我使用該模型進行預測時，它將每個測試觀察結果歸為同一類（即20個觀察結果中的每個被歸類為“ 1”） 5種可能的結果）。 我確定這是錯誤的（測試集用於Coursera測驗，因此我沒有發布確切的代碼），但我不確定發生了什么。

我的問題是，當我調用fit的最終模型（fit $ finalModel）時，它說它總共制作了500棵樹（默認樹和期望樹）， 但是每次拆分嘗試的變量數目為35。為每個拆分選擇的標准觀察數是總預測變量數的平方根（因此，應為sqrt（60）= 7.7，稱為8）。 這可能是問題嗎？

我對模型或數據清理等是否有問題感到困惑。

set.seed(10000)
fitControl <- trainControl(method = "cv", number = 5)
fit <- train(y ~ ., data = training, method = "rf", trControl = fitControl)

fit $ finalModel

Call:
 randomForest(x = x, y = y, mtry = param$mtry) 
           Type of random forest: classification
                 Number of trees: 500
No. of variables tried at each split: 41

    OOB estimate of  error rate: 0.01%

Answer 1

如果學生未能刪除NA值超過50％的自變量，則在Coursera上的Johns Hopkins實用機器學習課程的最終項目中使用隨機森林將為測驗的所有20個測試用例生成相同的預測。

解決方案：從模型中刪除缺失值比例很高的變量。

R-caret :: train“隨機森林”參數

問題描述

1 個解決方案

解決方案1
0 2018-04-15 02:24:14

R-caret :: train“隨機森林”參數

問題描述

1 個解決方案

解決方案1 0 2018-04-15 02:24:14

解決方案1
0 2018-04-15 02:24:14