簡體   English   中英

sklearn.preprocessing.normalize如何對數據進行歸一化,並且可以在具有均值和標准差的新數據上進行復制嗎?

[英]How does sklearn.preprocessing.normalize normalize data, and can I replicate on new data with mean and standard deviation?

我當時正在研究數據科學問題,並且使用sklearn的預處理規范化功能來規范我的數據集。 現在,一旦保存了模型,我想知道如何將這些轉換應用於新的數據點,以便可以將其輸入模型並進行預測。

我保存的是

finalmodel.pkl
finalmodel.sav
statistics.csv

統計表具有每列的平均值和標准偏差。 歸一化是將平均值減去標准偏差后的通常除以標准偏差,還是sklearn采用其他策略?

與所使用的規范化系統無關sklearn.preprocessing.normalize還提供了參數return_norm ,您可以將其設置為True並存儲供以后使用的規范。

這是一個使用L2(又稱為Taxicab distance )的示例:

from sklearn.preprocessing import normalize
import numpy as np

x = np.array([[3, 4], [5, 6]])
values, norms = normalize(x, norm='l1', return_norm=True)

您現在會注意到:

values

Out[18]: array([[0.42857143, 0.57142857],
               [0.45454545, 0.54545455]])

norms

Out[19]: array([ 7., 11.])

現在,就像檢查一樣,將一個數組項除以相應的列規范:

3/7

Out[20]:  0.42857142857142855

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM