[英]Root node error in classification tree model
我正在努力理解 rpart 中树分类的输出。 我不明白如何计算“根节点错误”(printcp 函数的输出之一)。 我在 rpart 包描述中也找不到它的定义。
例如,我加载了泰坦尼克号数据:
library(titanic)
library(rpart)
tt<-titanic_train
table(tt$Survived)
所以我们有549人幸存下来,342人死亡。 共891人。
fit<-rpart(Survived ~Pclass+Sex+Age+ SibSp+Parch+Fare+Embarked , data=tt)
printcp(dend)
给出结果:
Regression tree:
rpart(formula = Survived ~ Pclass + Sex + Age + SibSp + Parch +
Fare + Embarked, data = tt)
Variables actually used in tree construction:
[1] Age Fare Pclass Sex SibSp
Root node error: 210.73/891 = 0.23651
n= 891
CP nsplit rel error xerror xstd
1 0.295231 0 1.00000 1.00538 0.016124
2 0.073942 1 0.70477 0.70896 0.033228
3 0.027124 2 0.63083 0.63570 0.031752
4 0.026299 3 0.60370 0.62105 0.032815
5 0.023849 4 0.57740 0.61154 0.032884
6 0.021091 5 0.55356 0.58294 0.032127
7 0.010000 6 0.53246 0.57097 0.032402
这里的根节点错误是指在添加任何节点之前开始时的错误分类错误,对吗? 因此,如果我假设每个人都幸存下来,那么在 891 个案例中,我将在 342 个案例中出错,因此根节点错误应该是 342/891。 在输出中我有 210.73/891。
如果能帮助我理解 210.73 在根节点错误中的含义以及它是如何根据这个巨大的数据计算出来的,我将不胜感激。 我一整天都在寻找它,找不到任何解释。
预先感谢您的帮助。
根节点错误是第一个(根)分裂节点正确排序记录的百分比。
有关详细信息,请参阅了解决策树工具的输出。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.