[英]Overcoming Multicollinearity in Random Forest Regression and still keeping all variables in the model
我是随机森林回归的新手。 我在prep1中有300个连续变量(299个预测变量和1个目标变量),其中一些预测变量是高度相关的。 问题是我仍然需要获取每个预测变量的重要性值,因此消除某些预测变量不是一种选择。
这是我的问题:
1)有没有一种方法可以为每棵树选择仅高度不相关的变量,如果是,则应如何调整以下代码?
2)假设1)是,这将解决多重共线性问题吗?
bound <- floor(nrow(prep1)/2)
df <- prep1[sample(nrow(prep1)), ]
train <- df[1:bound, ]
test <- df[(bound+1):nrow(df), ]
modelFit <- randomForest(continuous_target ~., data = train)
prediction <- predict(modelFit, test)
随机森林具有选择要替换的样本以及在这些样本上随机选择特征子集的性质。 根据您的情况,鉴于响应变量中没有偏斜,因此构建大树数应使您对所有变量都具有重要性。 尽管这会增加计算复杂性,因为您要为每个袋子多次捕获相同的重要性。 同样,多重共线性不会影响预测能力。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.