簡體   English   中英

數據較少,稀疏和不平衡時的功能選擇

[英]Feature selection when data is less, sparse and imbalanced

當我的數據較少,稀疏和不平衡時,有什么方法可以選擇功能。

大約90%的樣本是有序的,而10%是數字。

特征數量:200個樣本數量:大約1000個

是的,可以為稀疏數據進行特征選擇。 可能的方法是:

  • 基於chi-2的特征選擇
  • RandomForestClassifier / RandomForestRegressor
  • xgboost

嘗試使用過采樣技術(例如SMOTE)或欠采樣在原始數據集和平衡數據集中進行特征選擇。 SMOTE代表合成少數族裔過度采樣。 有一個專用程序包用於平衡Python中的不平衡數據集。 您可以使用此包https://pypi.python.org/pypi/imbalanced-learn

正如在這篇有關特征選擇的高引用論文中所建議的那樣,在特征選擇中首選某種領域知識。 比較平衡和原始數據上的特征重要性,以最終選擇特征。

參考文獻:

http://blog.kaggle.com/2016/07/21/approaching-almost-any-machine-learning-problem-abhishek-thakur/

http://ogrisel.github.io/scikit-learn.org/sklearn-tutorial/modules/generation/sklearn.feature_selection.chi2.html#sklearn.feature_selection.chi2

http://ogrisel.github.io/scikit-learn.org/sklearn-tutorial/modules/feature_selection.html

https://www.cs.cmu.edu/afs/cs/project/jair/pub/volume16/chawla02a-html/node6.html

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM