簡體   English   中英

R-caret :: train“隨機森林”參數

[英]R - caret::train “random forest” parameters

我正在嘗試使用插入符號包中的train()fx對60個變量和約20,000個觀察值建立分類模型。 我正在使用隨機森林方法,並且在訓練集上返回了0.999准確性,但是,當我使用該模型進行預測時,它將每個測試觀察結果歸為同一類(即20個觀察結果中的每個被歸類為“ 1”) 5種可能的結果)。 我確定這是錯誤的(測試集用於Coursera測驗,因此我沒有發布確切的代碼),但我不確定發生了什么。

我的問題是,當我調用fit的最終模型(fit $ finalModel)時,它說它總共制作了500棵樹(默認樹和期望樹), 但是每次拆分嘗試的變量數目為35。為每個拆分選擇的標准觀察數是總預測變量數的平方根(因此,應為sqrt(60)= 7.7,稱為8)。 這可能是問題嗎?

我對模型或數據清理等是否有問題感到困惑。

set.seed(10000)
fitControl <- trainControl(method = "cv", number = 5)
fit <- train(y ~ ., data = training, method = "rf", trControl = fitControl)

fit $ finalModel

Call:
 randomForest(x = x, y = y, mtry = param$mtry) 
           Type of random forest: classification
                 Number of trees: 500
No. of variables tried at each split: 41

    OOB estimate of  error rate: 0.01%

如果學生未能刪除NA值超過50%的自變量,則在Coursera上的Johns Hopkins實用機器學習課程的最終項目中使用隨機森林將為測驗的所有20個測試用例生成相同的預測。

解決方案:從模型中刪除缺失值比例很高的變量。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM