如何解释集成方法的特征重要性？

Question

我正在使用集成方法（随机森林，xgbclassifier等）进行分类。

一个重要方面是特征重要性预测，如下所示：

           Importance
Feature-A   0.25
Feature-B   0.09
Feature-C   0.08
.......

该模型的准确度得分约为0.85； 显然Feature-A很重要，因此我决定删除Feature-A并重新计算。

但是，删除Feature-A之后，我仍然发现性能不错，精度约为0.79。

这对我来说没有意义，因为Feature-A对模型的贡献为25％（如果删除），为什么精确度评分几乎没有受到影响？

我知道集成方法在将“弱”特征组合为“强”特征方面具有优势，因此准确性得分主要取决于聚合，而对重要特征去除的敏感性较低？

谢谢

Answer 1

可能还有其他功能与功能A冗余。例如，假设功能G，H，I与功能A冗余：如果您知道功能G，H，I的值，则功能A的值为几乎下定决心。

那将与您的结果一致。 如果我们包含特征A，则模型将向我们学习，因为仅使用特征A并忽略特征G，H，I即可获得极佳的准确性非常简单，因此它将具有出色的准确性，对特征A的高度重视以及特征G，H，I的重要性较低。如果我们排除特征A，则通过使用特征G，H，I，模型仍然可以获得几乎相同的精度，因此它仍将具有非常好的准确性（尽管由于G，H之间的关系，模型可能会变得更加复杂，我和班级要比A和班级之间的关系复杂。

如何解释集成方法的特征重要性？

问题描述

1 个解决方案

解决方案1
0 2017-05-24 16:01:40

如何解释集成方法的特征重要性？

问题描述

1 个解决方案

解决方案1 0 2017-05-24 16:01:40

解决方案1
0 2017-05-24 16:01:40