如何將標准化應用於訓練和測試數據集

Question

比方說，我有一個10要素數據集X形狀的[100, 10]和y形狀的目標數據集[100, 1] 例如，在用sklearn.model_selection.train_test_split將兩者拆分后，我獲得了：

X_train: [70, 10]
X_test: [30, 10]
y_train: [70, 1]
y_test: [30, 1]

應用標准化的正確方法是什么？

我嘗試過：

from sklearn import preprocessing
scaler = preprocessing.StandardScaler()

scaler.fit(X_train)

X_train_std = scaler.transform(X_train)
X_test_std = scaler.transform(X_test)

但是如果我嘗試使用模型進行預測，那么當我嘗試反比例縮放以查看MAE時，就會出現錯誤

from sklearn import linear_model
lr = linear_model.LinearRegression()
lr.fit(X_train_std, y_train)
y_pred_std = lr.predict(X_test_std)

y_pred = scaler.inverse_transform(y_pred_std) # error here

我還有另一個問題。 由於我有目標值，因此我應該使用

scaler = preprocessing.StandardScaler()

X_train_std = scaler.fit_transform(X_train, y_train)
X_test_std = scaler.transform(X_test)

而不是第一個代碼塊？

我是否還必須將轉換應用於y_train和y_test數據集？ 我有點困惑

Answer 1

應該將StandardScaler僅用於特征矩陣X。

因此，所有fit ， transform和inverse_transform方法inverse_transform需要X。

請注意，在擬合模型之后，您可以訪問以下屬性：

mean_ ： mean_中每個特征的X_train
scale_ ：在每個功能的標准差X_train

transform方法對每個樣本i進行(X[i, col] - mean_[col] / scale_[col]) 。 而每個樣本i的inverse_transform方法(X[i, col] * scale_[col] + mean_[col]) 。

如何將標准化應用於訓練和測試數據集

問題描述

1 個解決方案

解決方案1
4 已采納 2018-06-27 09:23:17

如何將標准化應用於訓練和測試數據集

問題描述

1 個解決方案

解決方案1 4 已采納 2018-06-27 09:23:17

解決方案1
4 已采納 2018-06-27 09:23:17