繁体   English   中英

sklearn.impute fit() function

[英]sklearn.impute fit() function

我正在阅读Python 的《傻瓜数据科学》 (第 2 版),第 6 章,输入缺失数据部分。 本书展示了使用scikit-learn库的示例代码。

import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer

s = pd.Series([1, 2, 3, np.NaN, 5, 6, None])
imp = SimpleImputer(missing_values='NaN', strategy='mean', axis=0)
imp.fit([1, 2, 3, 4, 5, 6, 7])

我试着逐行理解代码,所以我阅读了 sklearn 网站上的fit(X)文档。 然而,它只是说

在 X 上拟合输入

我不明白这一点。 然后在进一步阅读后我发现了这个

在您可以估算任何东西之前,您必须通过调用 fit() 为 Imputer 提供统计信息以供使用

我也不明白

所以我的问题是:“统计”这个词是什么意思? 谢谢

SimpleImputer用于根据策略参数(通过使用meanmedian特征值、最most_frequent值或constant )填充nan值。

fit() function 将根据您的策略计算统计数据。

例如,如果strategy='mean' 拟合 function 将根据X数据集计算平均值。

一旦完成,imputer 可用于填充数据集上的值,如下所示。

from sklearn.impute import SimpleImputer
import numpy as np
X_train = np.array([0,0, np.nan, 1, 1]).reshape((-1,1))

SimpleImputer(strategy='mean').fit_transform(X_train)

Output:

array([[0. ],
       [0. ],
       [0.5],
       [1. ],
       [1. ]])

请注意,您可以使用fit_transform()执行fit()transform()操作。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM