簡體   English   中英

有關特征選擇技術的建議?

[英]Suggestions on Feature selection techniques?

塊引用

我是機器學習的學生和初學者。 我想做特色
列的選擇。 我的數據集是50000 X 370,這是一個二進制分類問題。 首先,我刪除了std.deviation = 0的列,然后刪除了重復的列,之后,我檢查了ROC曲線面積最大的前20個要素。 除了進行PCA,下一步應該做什么? 任何人都可以給出選擇特征時要遵循的一系列步驟嗎?

您已經進行了很多預處理。 我建議的唯一附加步驟是在PCA之后將值標准化。 然后,您的數據應該准備好輸入到您的學習算法中。

還是要避免PCA? 如果功能之間的相關性不太強,則可能沒問題。 然后跳過PCA並僅將值標准化。

嘗試L1正則化。 這是刪除不相關功能的標准方法。

http://www.andrewng.org/portfolio/feature-selection-l1-vs-l2-regularization-and-rotational-invariance/

您可以嘗試以下技術/算法:

  1. L1正則化:這將生成稀疏特征矩陣; 大多數功能權重將為零。 但是,如果您具有高維數據集,則此技術很有用,在您的情況下這似乎是正確的。 有些算法不支持正則化。

  2. 順序特征選擇:對於不支持正則化的算法很有用。 這樣的算法會自動選擇與問題更相關的特征子集。 您可以在這里找到更多相關信息:(1) 大型特征選擇技術的比較研究 ,F。Ferri,P。Pudil,M。Hatef和J. Kittler。 大規模特征選擇技術的比較研究。 練習IV中的模式識別,1994年,第403-413頁。(2) scikit-learn中的特征選擇

  3. 減少二維性:如果您的問題是線性的,即數據是線性可分離的,則PCA(主成分分析)和LDA(線性判別分析)將非常有效。 如果數據不是線性可分離的,則可以嘗試內核主成分分析。

  4. 隨機森林的特征重要性:這是一種集成技術,可為您提供特征重要性(數值)。 您可能會丟棄重要性不高的功能。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM