繁体   English   中英

通过 Pearson 相关性或随机森林中的特征重要性进行特征选择

[英]Feature selection by Pearson correlation or Feature importance in Random Forest

我有点困惑; 我有一个数据集,其中一个特征与目标变量的关系最不重要,但是,在评估特征重要性之后。 它显示了与目标变量最显着的关系,如图所示,在下图中,名为“diff”的变量是目标。 并且称为“小时”的变量是独立特征? 是否有可能一个特征基于 Pearson 相关性显示出最不显着的关系,但基于特征重要性显示出最显着的关系,如果是这样? 那么哪一个是特征选择的参考呢? 皮尔逊相关性或特征重要性? 皮尔逊相关与特征重要性

我认为这是可能的。 相关性量化了线性关系。 这两个变量可能不是线性关系,因此显示出较低的相关系数。 这并不意味着没有任何关系。 可能存在二次、三次等关系。 这种非线性关系可能是基于树的 model 的许多决策的基础,因此获得了较高的重要性分数。 我建议查看这两个功能的 plot。 散点图可以揭示非线性关系。 至于使用哪个分数:功能重要性特定于您的 model。 如果您打算坚持使用基于树的 model ,请使用它。 如果您计划使用线性 model,则相关性可以让您对有用的功能有一个不错的了解,对于非线性 model,它们可能不是很好。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM