簡體 English 中英

在機器學習預處理中擴展大范圍的數據

[英]Scaling data with large range in Machine learning preprocessing

原文 2018-07-16 16:11:21 1 1 machine-learning

我是機器學習的新手。 我試圖在包含近50個功能的數據上應用ML。 某些功能的范圍為0到1000000，有些功能的范圍為0到100甚至更小。 現在，當我使用MinMaxScaler進行范圍（0,1）時使用特征縮放時，我認為具有較大范圍的特征可以縮小到非常小的值 ，這可能會影響我做出良好的預測。

我想知道是否有一些有效的擴展方法，以便適當縮放所有功能。

我也嘗試過標准縮放器，但准確性沒有提高。 我是否可以為某些功能使用不同的縮放功能，為剩余功能使用另一種功能

提前致謝！

1 個解決方案

特征縮放或數據規范化是訓練機器學習模型的重要部分。 通常建議對所有功能使用相同的縮放方法。 如果不同功能的音階大不相同，這可能會對您的學習能力產生連鎖效應（取決於您使用的方法）。 通過確保標准化的特征值，所有特征在其表示中被隱含地加權。

兩種常用的規范化方法是：

重新縮放（也稱為最小 - 最大標准化）：

其中x是原始值， x'是標准化值。 例如，假設我們有學生的體重數據，學生的體重跨度[160磅，200磅]。 要重新調整此數據，我們首先從每個學生的體重中減去160，然后將結果除以40（最大和最小權重之間的差異）。
均值歸一化

其中x是原始值， x'是標准化值。