簡體   English   中英

sklearn.ensemble中的python特征選擇特征重要性方法在多次運行中給出不一致的結果

[英]python feature selection feature importance method from sklearn.ensemble gives inconsistent results in multiple runs

我正在嘗試使用來自sklearn.ensemble的python功能缺陷進行功能選擇。 問題是每次我運行代碼(如下)時,結果都會不同。 我的意思是,它給了我不同的列,作為最大的功能重要性值。 奇怪嗎? 還是我做錯了事(?)

我功能太多(大約500 ...&50k記錄)。 我想獲得更重要的功能來改善分類。 但是功能重要性的結果似乎不一致。

#Feature importance 
from sklearn.ensemble import ExtraTreesClassifier
import matplotlib.pyplot as plt

#X independednt cols and y the target col
model = ExtraTreesClassifier()
model.fit(X,y)

# print(model.feature_importances_)

feat_importances = pd.Series(model.feature_importances_, index=X.columns)
feat_importances.nlargest(20).plot(kind ="barh")

隨機性進入擬合,因此您不應期望最終得到完全相同的結果。 為了獲得可重現的結果,可以將seed參數提供給估算器。

如果對於不同的種子,您最終獲得的變量重要性差異很大,則意味着就樹木可以捕獲的數據而言,這些功能似乎都不是支配數據的預測內容。 因此,應考慮不同的重要性。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM