簡體   English   中英

LightGBM 的特征重要性

[英]Feature importance with LightGBM

我使用多種算法訓練了一個 model,包括來自 skicit-learn 的隨機森林和 LightGBM。 這些 model 在准確性和其他統計數據方面表現相似。

問題是這兩種算法在特征重要性方面的行為不一致。 我使用了默認參數,我知道他們使用不同的方法來計算特征重要性,但我認為高度相關的特征應該總是對模型的預測影響最大。 隨機森林對我來說更有意義,因為高度相關的特征出現在頂部,而 LightGBM 並非如此。

有沒有一種方法可以解釋這種行為,LightGBM 的這種結果值得信賴嗎?

隨機森林特征重要性

在此處輸入圖像描述

LightGBM 特征重要性

在此處輸入圖像描述

與目標的相關性

在此處輸入圖像描述

好吧,GBM 通常表現得更好,尤其是當您與隨機森林進行比較時。 尤其是將它與 LightGBM 進行比較時。 與隨機森林相比,經過適當調整的 LightGBM 最有可能在性能和速度方面獲勝。

GBM優勢:

More developed. A lot of new features are developed for modern GBM model (xgboost, lightgbm, catboost) which affect its performance, speed, and scalability.

GBM 的缺點:

Number of parameters to tune
Tendency to overfit easily

如果您不完全確定為 LightGBM 正確調整了超參數,請堅持使用隨機森林; 這將更易於使用和維護。

我遇到過類似的問題。 LGBM 的默認特征重要性基於“split”,當我將其更改為“gain”時,繪圖給出了類似的結果。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM