sklearn StandardScaler 返回全零

Question

我有一个从以前的模型中保存的 sklearn StandardScaler并且正在尝试将其应用于新数据

scaler = myOldStandardScaler
print("ORIG:", X)
print("CLASS:", X.__class__)
X = scaler.fit_transform(X)
print("SCALED:", X)

我有三个观察结果，每个观察结果有 2000 个特征。 如果我分别运行每个观察，我会得到一个全零的输出。

ORIG: [[  3.19029839e-04   0.00000000e+00   1.90985485e-06 ...,   0.00000000e+00
0.00000000e+00   0.00000000e+00]]
CLASS: <class 'numpy.matrixlib.defmatrix.matrix'>
SCALED: [[ 0.  0.  0. ...,  0.  0.  0.]]

但是如果我将所有三个观察结果附加到一个数组中，我就会得到我想要的结果

ORIG: [[  0.00000000e+00   8.69737728e-08   7.53361877e-06 ...,   0.00000000e+00
0.00000000e+00   0.00000000e+00]
[  9.49627142e-04   0.00000000e+00   0.00000000e+00 ...,   0.00000000e+00
0.00000000e+00   0.00000000e+00]
[  3.19029839e-04   0.00000000e+00   1.90985485e-06 ...,   0.00000000e+00
0.00000000e+00   0.00000000e+00]]
CLASS: <class 'numpy.matrixlib.defmatrix.matrix'>
SCALED: [[-1.07174217  1.41421356  1.37153077 ...,  0.          0.          0.        ]
[ 1.33494964 -0.70710678 -0.98439142 ...,  0.          0.          0.        ]
[-0.26320747 -0.70710678 -0.38713935 ...,  0.          0.          0.        ]]

我已经看到了这两个问题：

两者都没有公认的答案。

我试过：

从 (1,n) 到 (n,1) 的整形（这会给出错误的结果）
将数组转换为np.float32和np.float64 （仍然全为零）
创建一个数组的数组（再次，全部为零）
创建一个np.matrix （再次，全零）

我错过了什么？ fit_transform的输入是相同的类型，只是大小不同。

如何让 StandardScaler 与单个观察一起工作？

Answer 1

当您尝试将StandardScaler对象的fit_transform方法应用于大小为 (1, n) 的数组时，您显然会得到全零，因为对于每个数组数，您要从中减去该数的平均值，该数等于 number 并除以 std这个数字。 如果要正确缩放数组，则应将其转换为大小为 (n, 1) 的数组。 你可以这样做：

import numpy as np

X = np.array([1, -4, 5, 6, -8, 5]) # here should be your X in np.array format
X_transformed = scaler.fit_transform(X[:, np.newaxis])

在这种情况下，您可以通过一个对象的功能获得一个对象的标准缩放，这不是您要找的。
如果fit_transform 3 个对象的一个特征进行缩放，则应将大小为 (3, 1) 的数组传递给fit_transform方法，其中包含与每个对象对应的特定特征的值。

X = np.array([0.00000000e+00, 9.49627142e-04, 3.19029839e-04])
X_transformed = scaler.fit_transform(X[:, np.newaxis]) # you should get
# array([[-1.07174217], [1.33494964], [-0.26320747]]) you're looking for

如果你想使用已经拟合的 StandardScaler 对象，你不应该使用fit_transform方法，因为它用新数据重新拟合对象。 StandardScaler有transform方法，它适用于单一观察：

X = np.array([1, -4, 5, 6, -8, 5]) # here should be your X in np.array format
X_transformed = scaler.transform(X.reshape(1, -1))

Answer 2

我有同样的问题。 大小为 (1, n) 的数组问题的另一个（更简单）解决方案是转置矩阵，它的大小为 (n, 1)。

X = np.array([0.00000000e+00, 9.49627142e-04, 3.19029839e-04])
X_transformed = scaler.transform(X.T)

sklearn StandardScaler 返回全零

问题描述

2 个解决方案

解决方案1
24 已采纳 2017-10-04 10:15:35

解决方案2
2 2021-02-22 14:38:55

sklearn StandardScaler 返回全零

问题描述

2 个解决方案

解决方案1 24 已采纳 2017-10-04 10:15:35

解决方案2 2 2021-02-22 14:38:55

解决方案1
24 已采纳 2017-10-04 10:15:35

解决方案2
2 2021-02-22 14:38:55