![](/img/trans.png)
[英]How to normalize the columns of a DataFrame using sklearn.preprocessing.normalize?
[英]How does sklearn.preprocessing.normalize normalize data, and can I replicate on new data with mean and standard deviation?
我當時正在研究數據科學問題,並且使用sklearn的預處理規范化功能來規范我的數據集。 現在,一旦保存了模型,我想知道如何將這些轉換應用於新的數據點,以便可以將其輸入模型並進行預測。
我保存的是
finalmodel.pkl
finalmodel.sav
statistics.csv
統計表具有每列的平均值和標准偏差。 歸一化是將平均值減去標准偏差后的通常除以標准偏差,還是sklearn采用其他策略?
與所使用的規范化系統無關 , sklearn.preprocessing.normalize還提供了參數return_norm ,您可以將其設置為True並存儲供以后使用的規范。
這是一個使用L2(又稱為Taxicab distance )的示例:
from sklearn.preprocessing import normalize
import numpy as np
x = np.array([[3, 4], [5, 6]])
values, norms = normalize(x, norm='l1', return_norm=True)
您現在會注意到:
values
Out[18]: array([[0.42857143, 0.57142857],
[0.45454545, 0.54545455]])
norms
Out[19]: array([ 7., 11.])
現在,就像檢查一樣,將一個數組項除以相應的列規范:
3/7
Out[20]: 0.42857142857142855
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.