簡體 English 中英

數據較少，稀疏和不平衡時的功能選擇

[英]Feature selection when data is less, sparse and imbalanced

原文 2017-02-01 04:50:32 2 1 machine-learning/ scikit-learn/ analytics/ feature-selection

當我的數據較少，稀疏和不平衡時，有什么方法可以選擇功能。

大約90％的樣本是有序的，而10％是數字。

特征數量：200個樣本數量：大約1000個

1 個解決方案

是的，可以為稀疏數據進行特征選擇。 可能的方法是：

基於chi-2的特征選擇
RandomForestClassifier / RandomForestRegressor
xgboost

嘗試使用過采樣技術（例如SMOTE）或欠采樣在原始數據集和平衡數據集中進行特征選擇。 SMOTE代表合成少數族裔過度采樣。 有一個專用程序包用於平衡Python中的不平衡數據集。 您可以使用此包https://pypi.python.org/pypi/imbalanced-learn 。

正如在這篇有關特征選擇的高引用論文中所建議的那樣，在特征選擇中首選某種領域知識。 比較平衡和原始數據上的特征重要性，以最終選擇特征。

參考文獻：

http://blog.kaggle.com/2016/07/21/approaching-almost-any-machine-learning-problem-abhishek-thakur/

http://ogrisel.github.io/scikit-learn.org/sklearn-tutorial/modules/generation/sklearn.feature_selection.chi2.html#sklearn.feature_selection.chi2

http://ogrisel.github.io/scikit-learn.org/sklearn-tutorial/modules/feature_selection.html

https://www.cs.cmu.edu/afs/cs/project/jair/pub/volume16/chawla02a-html/node6.html