簡體   English   中英

隨機森林的P值

[英]P-Value for Random Forest

我是R的新手,如果這個問題很簡單,請對不起。 我嘗試通過改組類標簽來計算我的隨機森林分類的​​p值。 這是到目前為止使用虹膜數據集和我的代碼的示例:

     rows <- sample(rownames(iris), replace = TRUE, size = length(rownames(iris))*0.8)
     train <- iris[rows,]
     validation <- iris[-as.numeric(names(table(rows))),]

     fit <- randomForest:::randomForest(Species ~ .,
                               data=train, 
                               importance=TRUE, 
                               ntree=1000)    
     Prediction <- predict(fit, validation)
     confmatrix <- table(validation[,"Species"], Prediction)
     confusionMatrix(confmatrix) 

我讀了一個名為rfPerform的軟件包。 閱讀幫助頁面后,我想到了以下代碼:

     rfPermute(Species ~ ., data = iris, ntree = 100, na.action = na.omit, nrep = 50)$pval

這是我的問題:我不了解輸出(縮放和未縮放)(對不起,我不是統計學家,閱讀后仍然看不到差異)。 是否可以通過例如計算所有p值的中位數來獲得眾多p值中的一個? 我要解決的問題是隨機森林的結果是偶然發生的還是有意義的。 我對某一特定功能或某特定類不感興趣。

感謝幫助!

縮放變量與不縮放變量有區別。 縮放數據集的變量后,您的目標是使所有變量具有相同的方差(通常為1)。 這允許具有許多離群值,極值等的變量足夠好以用於與其他變量進行比較。 因此,這兩個數組分別用縮放變量和不縮放變量表示算法的結果。

接下來需要說明的是運行的算法。 簡單地盲目運行一個您不了解的算法,對您研究的內容弊大於利。 如果您只搜索Google,就可以在線閱讀很多內容。

您感興趣的輸出不能匯總為一個p值。 但是,輸出為您提供了Species的p值,每個Species的p值都有自己的生長樹。 在那里您可以看到哪棵樹具有統計意義。 整個輸出很重要,因為這樣您就可以看到您能夠為哪些物種做出具有統計意義的假設。

希望我回答了你的問題。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM