簡體 English 中英

有關特征選擇技術的建議？

[英]Suggestions on Feature selection techniques?

原文 2016-04-14 07:05:46 1 3 python-3.x/ machine-learning/ data-analysis/ feature-selection/ data-science

塊引用

我是機器學習的學生和初學者。 我想做特色
列的選擇。 我的數據集是50000 X 370，這是一個二進制分類問題。 首先，我刪除了std.deviation = 0的列，然后刪除了重復的列，之后，我檢查了ROC曲線面積最大的前20個要素。 除了進行PCA，下一步應該做什么？ 任何人都可以給出選擇特征時要遵循的一系列步驟嗎？

3 個解決方案

您已經進行了很多預處理。 我建議的唯一附加步驟是在PCA之后將值標准化。 然后，您的數據應該准備好輸入到您的學習算法中。

還是要避免PCA？ 如果功能之間的相關性不太強，則可能沒問題。 然后跳過PCA並僅將值標准化。

嘗試L1正則化。 這是刪除不相關功能的標准方法。

http://www.andrewng.org/portfolio/feature-selection-l1-vs-l2-regularization-and-rotational-invariance/

您可以嘗試以下技術/算法：

L1正則化：這將生成稀疏特征矩陣； 大多數功能權重將為零。 但是，如果您具有高維數據集，則此技術很有用，在您的情況下這似乎是正確的。 有些算法不支持正則化。
順序特征選擇：對於不支持正則化的算法很有用。 這樣的算法會自動選擇與問題更相關的特征子集。 您可以在這里找到更多相關信息：（1）大型特征選擇技術的比較研究，F。Ferri，P。Pudil，M。Hatef和J. Kittler。 大規模特征選擇技術的比較研究。 練習IV中的模式識別，1994年，第403-413頁。（2） scikit-learn中的特征選擇。
減少二維性：如果您的問題是線性的，即數據是線性可分離的，則PCA（主成分分析）和LDA（線性判別分析）將非常有效。 如果數據不是線性可分離的，則可以嘗試內核主成分分析。
隨機森林的特征重要性：這是一種集成技術，可為您提供特征重要性（數值）。 您可能會丟棄重要性不高的功能。