![](/img/trans.png)
[英]How to do these in weka: cross validation + imbalanced data + feature selection
[英]Feature selection when data is less, sparse and imbalanced
当我的数据较少,稀疏和不平衡时,有什么方法可以选择功能。
大约90%的样本是有序的,而10%是数字。
特征数量:200个样本数量:大约1000个
是的,可以为稀疏数据进行特征选择。 可能的方法是:
尝试使用过采样技术(例如SMOTE)或欠采样在原始数据集和平衡数据集中进行特征选择。 SMOTE代表合成少数族裔过度采样。 有一个专用程序包用于平衡Python中的不平衡数据集。 您可以使用此包https://pypi.python.org/pypi/imbalanced-learn 。
正如在这篇有关特征选择的高引用论文中所建议的那样,在特征选择中首选某种领域知识。 比较平衡和原始数据上的特征重要性,以最终选择特征。
参考文献:
http://blog.kaggle.com/2016/07/21/approaching-almost-any-machine-learning-problem-abhishek-thakur/
http://ogrisel.github.io/scikit-learn.org/sklearn-tutorial/modules/feature_selection.html
https://www.cs.cmu.edu/afs/cs/project/jair/pub/volume16/chawla02a-html/node6.html
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.