[英]sklearn StandardScaler returns all zeros
我有一個從以前的模型中保存的 sklearn StandardScaler
並且正在嘗試將其應用於新數據
scaler = myOldStandardScaler
print("ORIG:", X)
print("CLASS:", X.__class__)
X = scaler.fit_transform(X)
print("SCALED:", X)
我有三個觀察結果,每個觀察結果有 2000 個特征。 如果我分別運行每個觀察,我會得到一個全零的輸出。
ORIG: [[ 3.19029839e-04 0.00000000e+00 1.90985485e-06 ..., 0.00000000e+00
0.00000000e+00 0.00000000e+00]]
CLASS: <class 'numpy.matrixlib.defmatrix.matrix'>
SCALED: [[ 0. 0. 0. ..., 0. 0. 0.]]
但是如果我將所有三個觀察結果附加到一個數組中,我就會得到我想要的結果
ORIG: [[ 0.00000000e+00 8.69737728e-08 7.53361877e-06 ..., 0.00000000e+00
0.00000000e+00 0.00000000e+00]
[ 9.49627142e-04 0.00000000e+00 0.00000000e+00 ..., 0.00000000e+00
0.00000000e+00 0.00000000e+00]
[ 3.19029839e-04 0.00000000e+00 1.90985485e-06 ..., 0.00000000e+00
0.00000000e+00 0.00000000e+00]]
CLASS: <class 'numpy.matrixlib.defmatrix.matrix'>
SCALED: [[-1.07174217 1.41421356 1.37153077 ..., 0. 0. 0. ]
[ 1.33494964 -0.70710678 -0.98439142 ..., 0. 0. 0. ]
[-0.26320747 -0.70710678 -0.38713935 ..., 0. 0. 0. ]]
我已經看到了這兩個問題:
兩者都沒有公認的答案。
我試過:
np.float32
和np.float64
(仍然全為零)np.matrix
(再次,全零) 我錯過了什么? fit_transform
的輸入是相同的類型,只是大小不同。
如何讓 StandardScaler 與單個觀察一起工作?
當您嘗試將StandardScaler
對象的fit_transform
方法應用於大小為 (1, n) 的數組時,您顯然會得到全零,因為對於每個數組數,您要從中減去該數的平均值,該數等於 number 並除以 std這個數字。 如果要正確縮放數組,則應將其轉換為大小為 (n, 1) 的數組。 你可以這樣做:
import numpy as np
X = np.array([1, -4, 5, 6, -8, 5]) # here should be your X in np.array format
X_transformed = scaler.fit_transform(X[:, np.newaxis])
在這種情況下,您可以通過一個對象的功能獲得一個對象的標准縮放,這不是您要找的。
如果fit_transform
3 個對象的一個特征進行縮放,則應將大小為 (3, 1) 的數組傳遞給fit_transform
方法,其中包含與每個對象對應的特定特征的值。
X = np.array([0.00000000e+00, 9.49627142e-04, 3.19029839e-04])
X_transformed = scaler.fit_transform(X[:, np.newaxis]) # you should get
# array([[-1.07174217], [1.33494964], [-0.26320747]]) you're looking for
如果你想使用已經擬合的 StandardScaler 對象,你不應該使用fit_transform
方法,因為它用新數據重新擬合對象。 StandardScaler
有transform
方法,它適用於單一觀察:
X = np.array([1, -4, 5, 6, -8, 5]) # here should be your X in np.array format
X_transformed = scaler.transform(X.reshape(1, -1))
我有同樣的問題。 大小為 (1, n) 的數組問題的另一個(更簡單)解決方案是轉置矩陣,它的大小為 (n, 1)。
X = np.array([0.00000000e+00, 9.49627142e-04, 3.19029839e-04])
X_transformed = scaler.transform(X.T)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.