[英]R - caret::train “random forest” parameters
我正在嘗試使用插入符號包中的train()fx對60個變量和約20,000個觀察值建立分類模型。 我正在使用隨機森林方法,並且在訓練集上返回了0.999准確性,但是,當我使用該模型進行預測時,它將每個測試觀察結果歸為同一類(即20個觀察結果中的每個被歸類為“ 1”) 5種可能的結果)。 我確定這是錯誤的(測試集用於Coursera測驗,因此我沒有發布確切的代碼),但我不確定發生了什么。
我的問題是,當我調用fit的最終模型(fit $ finalModel)時,它說它總共制作了500棵樹(默認樹和期望樹), 但是每次拆分嘗試的變量數目為35。為每個拆分選擇的標准觀察數是總預測變量數的平方根(因此,應為sqrt(60)= 7.7,稱為8)。 這可能是問題嗎?
我對模型或數據清理等是否有問題感到困惑。
set.seed(10000)
fitControl <- trainControl(method = "cv", number = 5)
fit <- train(y ~ ., data = training, method = "rf", trControl = fitControl)
fit $ finalModel
Call:
randomForest(x = x, y = y, mtry = param$mtry)
Type of random forest: classification
Number of trees: 500
No. of variables tried at each split: 41
OOB estimate of error rate: 0.01%
如果學生未能刪除NA值超過50%的自變量,則在Coursera上的Johns Hopkins實用機器學習課程的最終項目中使用隨機森林將為測驗的所有20個測試用例生成相同的預測。
解決方案:從模型中刪除缺失值比例很高的變量。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.