繁体   English   中英

sklearn.ensemble中的python特征选择特征重要性方法在多次运行中给出不一致的结果

[英]python feature selection feature importance method from sklearn.ensemble gives inconsistent results in multiple runs

我正在尝试使用来自sklearn.ensemble的python功能缺陷进行功能选择。 问题是每次我运行代码(如下)时,结果都会不同。 我的意思是,它给了我不同的列,作为最大的功能重要性值。 奇怪吗? 还是我做错了事(?)

我功能太多(大约500 ...&50k记录)。 我想获得更重要的功能来改善分类。 但是功能重要性的结果似乎不一致。

#Feature importance 
from sklearn.ensemble import ExtraTreesClassifier
import matplotlib.pyplot as plt

#X independednt cols and y the target col
model = ExtraTreesClassifier()
model.fit(X,y)

# print(model.feature_importances_)

feat_importances = pd.Series(model.feature_importances_, index=X.columns)
feat_importances.nlargest(20).plot(kind ="barh")

随机性进入拟合,因此您不应期望最终得到完全相同的结果。 为了获得可重现的结果,可以将seed参数提供给估算器。

如果对于不同的种子,您最终获得的变量重要性差异很大,则意味着就树木可以捕获的数据而言,这些功能似乎都不是支配数据的预测内容。 因此,应考虑不同的重要性。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM