繁体 English 中英

数据较少，稀疏和不平衡时的功能选择

[英]Feature selection when data is less, sparse and imbalanced

原文 2017-02-01 04:50:32 1 1 machine-learning/ scikit-learn/ analytics/ feature-selection

当我的数据较少，稀疏和不平衡时，有什么方法可以选择功能。

大约90％的样本是有序的，而10％是数字。

特征数量：200个样本数量：大约1000个

1 个解决方案

是的，可以为稀疏数据进行特征选择。 可能的方法是：

基于chi-2的特征选择
RandomForestClassifier / RandomForestRegressor
xgboost

尝试使用过采样技术（例如SMOTE）或欠采样在原始数据集和平衡数据集中进行特征选择。 SMOTE代表合成少数族裔过度采样。 有一个专用程序包用于平衡Python中的不平衡数据集。 您可以使用此包https://pypi.python.org/pypi/imbalanced-learn 。

正如在这篇有关特征选择的高引用论文中所建议的那样，在特征选择中首选某种领域知识。 比较平衡和原始数据上的特征重要性，以最终选择特征。

参考文献：

http://blog.kaggle.com/2016/07/21/approaching-almost-any-machine-learning-problem-abhishek-thakur/

http://ogrisel.github.io/scikit-learn.org/sklearn-tutorial/modules/generation/sklearn.feature_selection.chi2.html#sklearn.feature_selection.chi2

http://ogrisel.github.io/scikit-learn.org/sklearn-tutorial/modules/feature_selection.html

https://www.cs.cmu.edu/afs/cs/project/jair/pub/volume16/chawla02a-html/node6.html