繁体   English   中英

数据较少,稀疏和不平衡时的功能选择

[英]Feature selection when data is less, sparse and imbalanced

当我的数据较少,稀疏和不平衡时,有什么方法可以选择功能。

大约90%的样本是有序的,而10%是数字。

特征数量:200个样本数量:大约1000个

是的,可以为稀疏数据进行特征选择。 可能的方法是:

  • 基于chi-2的特征选择
  • RandomForestClassifier / RandomForestRegressor
  • xgboost

尝试使用过采样技术(例如SMOTE)或欠采样在原始数据集和平衡数据集中进行特征选择。 SMOTE代表合成少数族裔过度采样。 有一个专用程序包用于平衡Python中的不平衡数据集。 您可以使用此包https://pypi.python.org/pypi/imbalanced-learn

正如在这篇有关特征选择的高引用论文中所建议的那样,在特征选择中首选某种领域知识。 比较平衡和原始数据上的特征重要性,以最终选择特征。

参考文献:

http://blog.kaggle.com/2016/07/21/approaching-almost-any-machine-learning-problem-abhishek-thakur/

http://ogrisel.github.io/scikit-learn.org/sklearn-tutorial/modules/generation/sklearn.feature_selection.chi2.html#sklearn.feature_selection.chi2

http://ogrisel.github.io/scikit-learn.org/sklearn-tutorial/modules/feature_selection.html

https://www.cs.cmu.edu/afs/cs/project/jair/pub/volume16/chawla02a-html/node6.html

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM