繁体   English   中英

R中随机森林的类别重要性

[英]class importance for random forest in r

我在R中使用randomForest pkg根据11个数字预测变量预测二进制类。 出了两班, HitMiss ,类Hit是更重要的,也就是我想知道有多少次正确预测Hit

有没有一种方法可以使Hit在训练随机森林方面具有更高的重要性? 目前,训练有素的随机森林仅正确预测了7%的Hit病例,并且肯定需要改进。

更高的重要性? 我不知道如何告诉任何算法“这次我不是在开玩笑 :我希望这种分析是准确的。”

您一直在努力应对差异与偏见。 如果您过多地提高了训练准确性,则可能会出现过度拟合的风险。

您可以通过更改预测变量的随机样本的大小来调整随机森林。 如果您有m个预测变量,则对于树中的分割数,随机森林的建议为p = m ^ 1/2。 您还可以改变树木的数量。 为p的不同值绘制测试分类错误与#树的关系,以了解您的操作方式。

您还可以尝试其他算法,例如gbm (广义增强回归模型)或支持向量机

绘制数据时,数据看起来如何? 当您在散点图中查看任何明显的小组时,您会跳出来吗?

无论使用哪种算法,建议您对模型进行n折验证。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM