[英]P-Value for Random Forest
我是R的新手,如果这个问题很简单,请对不起。 我尝试通过改组类标签来计算我的随机森林分类的p值。 这是到目前为止使用虹膜数据集和我的代码的示例:
rows <- sample(rownames(iris), replace = TRUE, size = length(rownames(iris))*0.8)
train <- iris[rows,]
validation <- iris[-as.numeric(names(table(rows))),]
fit <- randomForest:::randomForest(Species ~ .,
data=train,
importance=TRUE,
ntree=1000)
Prediction <- predict(fit, validation)
confmatrix <- table(validation[,"Species"], Prediction)
confusionMatrix(confmatrix)
我读了一个名为rfPerform的软件包。 阅读帮助页面后,我想到了以下代码:
rfPermute(Species ~ ., data = iris, ntree = 100, na.action = na.omit, nrep = 50)$pval
这是我的问题:我不了解输出(缩放和未缩放)(对不起,我不是统计学家,阅读后仍然看不到差异)。 是否可以通过例如计算所有p值的中位数来获得众多p值中的一个? 我要解决的问题是随机森林的结果是偶然发生的还是有意义的。 我对某一特定功能或某特定类不感兴趣。
感谢帮助!
缩放变量与不缩放变量有区别。 缩放数据集的变量后,您的目标是使所有变量具有相同的方差(通常为1)。 这允许具有许多离群值,极值等的变量足够好以用于与其他变量进行比较。 因此,这两个数组分别用缩放变量和不缩放变量表示算法的结果。
接下来需要说明的是运行的算法。 简单地盲目运行一个您不了解的算法,对您研究的内容弊大于利。 如果您只搜索Google,就可以在线阅读很多内容。
您感兴趣的输出不能汇总为一个p值。 但是,输出为您提供了Species
的p值,每个Species
的p值都有自己的生长树。 在那里您可以看到哪棵树具有统计意义。 整个输出很重要,因为这样您就可以看到您能够为哪些物种做出具有统计意义的假设。
希望我回答了你的问题。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.