隨機森林的P值

Question

我是R的新手，如果這個問題很簡單，請對不起。 我嘗試通過改組類標簽來計算我的隨機森林分類的p值。 這是到目前為止使用虹膜數據集和我的代碼的示例：

     rows <- sample(rownames(iris), replace = TRUE, size = length(rownames(iris))*0.8)
     train <- iris[rows,]
     validation <- iris[-as.numeric(names(table(rows))),]

     fit <- randomForest:::randomForest(Species ~ .,
                               data=train, 
                               importance=TRUE, 
                               ntree=1000)    
     Prediction <- predict(fit, validation)
     confmatrix <- table(validation[,"Species"], Prediction)
     confusionMatrix(confmatrix)

我讀了一個名為rfPerform的軟件包。 閱讀幫助頁面后，我想到了以下代碼：

     rfPermute(Species ~ ., data = iris, ntree = 100, na.action = na.omit, nrep = 50)$pval

這是我的問題：我不了解輸出（縮放和未縮放）（對不起，我不是統計學家，閱讀后仍然看不到差異）。 是否可以通過例如計算所有p值的中位數來獲得眾多p值中的一個？ 我要解決的問題是隨機森林的結果是偶然發生的還是有意義的。 我對某一特定功能或某特定類不感興趣。

感謝幫助！

Answer 1

縮放變量與不縮放變量有區別。 縮放數據集的變量后，您的目標是使所有變量具有相同的方差（通常為1）。 這允許具有許多離群值，極值等的變量足夠好以用於與其他變量進行比較。 因此，這兩個數組分別用縮放變量和不縮放變量表示算法的結果。

接下來需要說明的是運行的算法。 簡單地盲目運行一個您不了解的算法，對您研究的內容弊大於利。 如果您只搜索Google，就可以在線閱讀很多內容。

您感興趣的輸出不能匯總為一個p值。 但是，輸出為您提供了Species的p值，每個Species的p值都有自己的生長樹。 在那里您可以看到哪棵樹具有統計意義。 整個輸出很重要，因為這樣您就可以看到您能夠為哪些物種做出具有統計意義的假設。

希望我回答了你的問題。

隨機森林的P值

問題描述

1 個解決方案

解決方案1
0 2016-12-06 02:54:24

隨機森林的P值

問題描述

1 個解決方案

解決方案1 0 2016-12-06 02:54:24

解決方案1
0 2016-12-06 02:54:24