繁体   English   中英

如何解释集成方法的特征重要性?

[英]How to interpret feature importance for ensemble methods?

我正在使用集成方法(随机森林,xgbclassifier等)进行分类。

一个重要方面是特征重要性预测,如下所示:

           Importance
Feature-A   0.25
Feature-B   0.09
Feature-C   0.08
.......

该模型的准确度得分约为0.85; 显然Feature-A很重要,因此我决定删除Feature-A并重新计算。

但是,删除Feature-A之后,我仍然发现性能不错,精度约为0.79。

这对我来说没有意义,因为Feature-A对模型的贡献为25%(如果删除),为什么精确度评分几乎没有受到影响?

我知道集成方法在将“弱”特征组合为“强”特征方面具有优势,因此准确性得分主要取决于聚合,而对重要特征去除的敏感性较低?

谢谢

可能还有其他功能与功能A冗余。例如,假设功能G,H,I与功能A冗余:如果您知道功能G,H,I的值,则功能A的值为几乎下定决心。

那将与您的结果一致。 如果我们包含特征A,则模型将向我们学习,因为仅使用特征A并忽略特征G,H,I即可获得极佳的准确性非常简单,因此它将具有出色的准确性,对特征A的高度重视以及特征G,H,I的重要性较低。 如果我们排除特征A,则通过使用特征G,H,I,模型仍然可以获得几乎相同的精度,因此它仍将具有非常好的准确性(尽管由于G,H之间的关系,模型可能会变得更加复杂,我和班级要比A和班级之间的关系复杂。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM