簡體   English   中英

如何解釋集成方法的特征重要性?

[英]How to interpret feature importance for ensemble methods?

我正在使用集成方法(隨機森林,xgbclassifier等)進行分類。

一個重要方面是特征重要性預測,如下所示:

           Importance
Feature-A   0.25
Feature-B   0.09
Feature-C   0.08
.......

該模型的准確度得分約為0.85; 顯然Feature-A很重要,因此我決定刪除Feature-A並重新計算。

但是,刪除Feature-A之后,我仍然發現性能不錯,精度約為0.79。

這對我來說沒有意義,因為Feature-A對模型的貢獻為25%(如果刪除),為什么精確度評分幾乎沒有受到影響?

我知道集成方法在將“弱”特征組合為“強”特征方面具有優勢,因此准確性得分主要取決於聚合,而對重要特征去除的敏感性較低?

謝謝

可能還有其他功能與功能A冗余。例如,假設功能G,H,I與功能A冗余:如果您知道功能G,H,I的值,則功能A的值為幾乎下定決心。

那將與您的結果一致。 如果我們包含特征A,則模型將向我們學習,因為僅使用特征A並忽略特征G,H,I即可獲得極佳的准確性非常簡單,因此它將具有出色的准確性,對特征A的高度重視以及特征G,H,I的重要性較低。 如果我們排除特征A,則通過使用特征G,H,I,模型仍然可以獲得幾乎相同的精度,因此它仍將具有非常好的准確性(盡管由於G,H之間的關系,模型可能會變得更加復雜,我和班級要比A和班級之間的關系復雜。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM