繁体   English   中英

随机森林的P值

[英]P-Value for Random Forest

我是R的新手,如果这个问题很简单,请对不起。 我尝试通过改组类标签来计算我的随机森林分类的​​p值。 这是到目前为止使用虹膜数据集和我的代码的示例:

     rows <- sample(rownames(iris), replace = TRUE, size = length(rownames(iris))*0.8)
     train <- iris[rows,]
     validation <- iris[-as.numeric(names(table(rows))),]

     fit <- randomForest:::randomForest(Species ~ .,
                               data=train, 
                               importance=TRUE, 
                               ntree=1000)    
     Prediction <- predict(fit, validation)
     confmatrix <- table(validation[,"Species"], Prediction)
     confusionMatrix(confmatrix) 

我读了一个名为rfPerform的软件包。 阅读帮助页面后,我想到了以下代码:

     rfPermute(Species ~ ., data = iris, ntree = 100, na.action = na.omit, nrep = 50)$pval

这是我的问题:我不了解输出(缩放和未缩放)(对不起,我不是统计学家,阅读后仍然看不到差异)。 是否可以通过例如计算所有p值的中位数来获得众多p值中的一个? 我要解决的问题是随机森林的结果是偶然发生的还是有意义的。 我对某一特定功能或某特定类不感兴趣。

感谢帮助!

缩放变量与不缩放变量有区别。 缩放数据集的变量后,您的目标是使所有变量具有相同的方差(通常为1)。 这允许具有许多离群值,极值等的变量足够好以用于与其他变量进行比较。 因此,这两个数组分别用缩放变量和不缩放变量表示算法的结果。

接下来需要说明的是运行的算法。 简单地盲目运行一个您不了解的算法,对您研究的内容弊大于利。 如果您只搜索Google,就可以在线阅读很多内容。

您感兴趣的输出不能汇总为一个p值。 但是,输出为您提供了Species的p值,每个Species的p值都有自己的生长树。 在那里您可以看到哪棵树具有统计意义。 整个输出很重要,因为这样您就可以看到您能够为哪些物种做出具有统计意义的假设。

希望我回答了你的问题。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM