繁体   English   中英

有关特征选择技术的建议?

[英]Suggestions on Feature selection techniques?

块引用

我是机器学习的学生和初学者。 我想做特色
列的选择。 我的数据集是50000 X 370,这是一个二进制分类问题。 首先,我删除了std.deviation = 0的列,然后删除了重复的列,之后,我检查了ROC曲线面积最大的前20个要素。 除了进行PCA,下一步应该做什么? 任何人都可以给出选择特征时要遵循的一系列步骤吗?

您已经进行了很多预处理。 我建议的唯一附加步骤是在PCA之后将值标准化。 然后,您的数据应该准备好输入到您的学习算法中。

还是要避免PCA? 如果功能之间的相关性不太强,则可能没问题。 然后跳过PCA并仅将值标准化。

尝试L1正则化。 这是删除不相关功能的标准方法。

http://www.andrewng.org/portfolio/feature-selection-l1-vs-l2-regularization-and-rotational-invariance/

您可以尝试以下技术/算法:

  1. L1正则化:这将生成稀疏特征矩阵; 大多数功能权重将为零。 但是,如果您具有高维数据集,则此技术很有用,在您的情况下这似乎是正确的。 有些算法不支持正则化。

  2. 顺序特征选择:对于不支持正则化的算法很有用。 这样的算法会自动选择与问题更相关的特征子集。 您可以在这里找到更多相关信息:(1) 大型特征选择技术的比较研究 ,F。Ferri,P。Pudil,M。Hatef和J. Kittler。 大规模特征选择技术的比较研究。 练习IV中的模式识别,1994年,第403-413页。(2) scikit-learn中的特征选择

  3. 减少二维性:如果您的问题是线性的,即数据是线性可分离的,则PCA(主成分分析)和LDA(线性判别分析)将非常有效。 如果数据不是线性可分离的,则可以尝试内核主成分分析。

  4. 随机森林的特征重要性:这是一种集成技术,可为您提供特征重要性(数值)。 您可能会丢弃重要性不高的功能。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM