簡體   English   中英

在機器學習預處理中擴展大范圍的數據

[英]Scaling data with large range in Machine learning preprocessing

我是機器學習的新手。 我試圖在包含近50個功能的數據上應用ML。 某些功能的范圍為0到1000000,有些功能的范圍為0到100甚至更小。 現在,當我使用MinMaxScaler進行范圍(0,1)時使用特征縮放時,我認為具有較大范圍的特征可以縮小到非常小的值 ,這可能會影響我做出良好的預測。

我想知道是否有一些有效的擴展方法,以便適當縮放所有功能。

我也嘗試過標准縮放器,但准確性沒有提高。 我是否可以為某些功能使用不同的縮放功能,為剩余功能使用另一種功能

提前致謝!

特征縮放或數據規范化是訓練機器學習模型的重要部分。 通常建議對所有功能使用相同的縮放方法。 如果不同功能的音階大不相同,這可能會對您的學習能力產生連鎖效應(取決於您使用的方法)。 通過確保標准化的特征值,所有特征在其表示中被隱含地加權。

兩種常用的規范化方法是:

  • 重新縮放(也稱為最小 - 最大標准化):

    在此輸入圖像描述

    其中x是原始值, x'是標准化值。 例如,假設我們有學生的體重數據,學生的體重跨度[160磅,200磅]。 要重新調整此數據,我們首先從每個學生的體重中減去160,然后將結果除以40(最大和最小權重之間的差異)。

  • 均值歸一化

    在此輸入圖像描述

    其中x是原始值, x'是標准化值。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM