[英]P-Value for Random Forest
我是R的新手,如果這個問題很簡單,請對不起。 我嘗試通過改組類標簽來計算我的隨機森林分類的p值。 這是到目前為止使用虹膜數據集和我的代碼的示例:
rows <- sample(rownames(iris), replace = TRUE, size = length(rownames(iris))*0.8)
train <- iris[rows,]
validation <- iris[-as.numeric(names(table(rows))),]
fit <- randomForest:::randomForest(Species ~ .,
data=train,
importance=TRUE,
ntree=1000)
Prediction <- predict(fit, validation)
confmatrix <- table(validation[,"Species"], Prediction)
confusionMatrix(confmatrix)
我讀了一個名為rfPerform的軟件包。 閱讀幫助頁面后,我想到了以下代碼:
rfPermute(Species ~ ., data = iris, ntree = 100, na.action = na.omit, nrep = 50)$pval
這是我的問題:我不了解輸出(縮放和未縮放)(對不起,我不是統計學家,閱讀后仍然看不到差異)。 是否可以通過例如計算所有p值的中位數來獲得眾多p值中的一個? 我要解決的問題是隨機森林的結果是偶然發生的還是有意義的。 我對某一特定功能或某特定類不感興趣。
感謝幫助!
縮放變量與不縮放變量有區別。 縮放數據集的變量后,您的目標是使所有變量具有相同的方差(通常為1)。 這允許具有許多離群值,極值等的變量足夠好以用於與其他變量進行比較。 因此,這兩個數組分別用縮放變量和不縮放變量表示算法的結果。
接下來需要說明的是運行的算法。 簡單地盲目運行一個您不了解的算法,對您研究的內容弊大於利。 如果您只搜索Google,就可以在線閱讀很多內容。
您感興趣的輸出不能匯總為一個p值。 但是,輸出為您提供了Species
的p值,每個Species
的p值都有自己的生長樹。 在那里您可以看到哪棵樹具有統計意義。 整個輸出很重要,因為這樣您就可以看到您能夠為哪些物種做出具有統計意義的假設。
希望我回答了你的問題。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.