如何解釋集成方法的特征重要性？

Question

我正在使用集成方法（隨機森林，xgbclassifier等）進行分類。

一個重要方面是特征重要性預測，如下所示：

           Importance
Feature-A   0.25
Feature-B   0.09
Feature-C   0.08
.......

該模型的准確度得分約為0.85； 顯然Feature-A很重要，因此我決定刪除Feature-A並重新計算。

但是，刪除Feature-A之后，我仍然發現性能不錯，精度約為0.79。

這對我來說沒有意義，因為Feature-A對模型的貢獻為25％（如果刪除），為什么精確度評分幾乎沒有受到影響？

我知道集成方法在將“弱”特征組合為“強”特征方面具有優勢，因此准確性得分主要取決於聚合，而對重要特征去除的敏感性較低？

謝謝

Answer 1

可能還有其他功能與功能A冗余。例如，假設功能G，H，I與功能A冗余：如果您知道功能G，H，I的值，則功能A的值為幾乎下定決心。

那將與您的結果一致。 如果我們包含特征A，則模型將向我們學習，因為僅使用特征A並忽略特征G，H，I即可獲得極佳的准確性非常簡單，因此它將具有出色的准確性，對特征A的高度重視以及特征G，H，I的重要性較低。如果我們排除特征A，則通過使用特征G，H，I，模型仍然可以獲得幾乎相同的精度，因此它仍將具有非常好的准確性（盡管由於G，H之間的關系，模型可能會變得更加復雜，我和班級要比A和班級之間的關系復雜。

如何解釋集成方法的特征重要性？

問題描述

1 個解決方案

解決方案1
0 2017-05-24 16:01:40

如何解釋集成方法的特征重要性？

問題描述

1 個解決方案

解決方案1 0 2017-05-24 16:01:40

解決方案1
0 2017-05-24 16:01:40