随机森林的P值

Question

我是R的新手，如果这个问题很简单，请对不起。 我尝试通过改组类标签来计算我的随机森林分类的p值。 这是到目前为止使用虹膜数据集和我的代码的示例：

     rows <- sample(rownames(iris), replace = TRUE, size = length(rownames(iris))*0.8)
     train <- iris[rows,]
     validation <- iris[-as.numeric(names(table(rows))),]

     fit <- randomForest:::randomForest(Species ~ .,
                               data=train, 
                               importance=TRUE, 
                               ntree=1000)    
     Prediction <- predict(fit, validation)
     confmatrix <- table(validation[,"Species"], Prediction)
     confusionMatrix(confmatrix)

我读了一个名为rfPerform的软件包。 阅读帮助页面后，我想到了以下代码：

     rfPermute(Species ~ ., data = iris, ntree = 100, na.action = na.omit, nrep = 50)$pval

这是我的问题：我不了解输出（缩放和未缩放）（对不起，我不是统计学家，阅读后仍然看不到差异）。 是否可以通过例如计算所有p值的中位数来获得众多p值中的一个？ 我要解决的问题是随机森林的结果是偶然发生的还是有意义的。 我对某一特定功能或某特定类不感兴趣。

感谢帮助！

Answer 1

缩放变量与不缩放变量有区别。 缩放数据集的变量后，您的目标是使所有变量具有相同的方差（通常为1）。 这允许具有许多离群值，极值等的变量足够好以用于与其他变量进行比较。 因此，这两个数组分别用缩放变量和不缩放变量表示算法的结果。

接下来需要说明的是运行的算法。 简单地盲目运行一个您不了解的算法，对您研究的内容弊大于利。 如果您只搜索Google，就可以在线阅读很多内容。

您感兴趣的输出不能汇总为一个p值。 但是，输出为您提供了Species的p值，每个Species的p值都有自己的生长树。 在那里您可以看到哪棵树具有统计意义。 整个输出很重要，因为这样您就可以看到您能够为哪些物种做出具有统计意义的假设。

希望我回答了你的问题。

随机森林的P值

问题描述

1 个解决方案

解决方案1
0 2016-12-06 02:54:24

随机森林的P值

问题描述

1 个解决方案

解决方案1 0 2016-12-06 02:54:24

解决方案1
0 2016-12-06 02:54:24