[英]sklearn.impute fit() function
我正在阅读Python 的《傻瓜数据科学》 (第 2 版),第 6 章,输入缺失数据部分。 本书展示了使用scikit-learn库的示例代码。
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer
s = pd.Series([1, 2, 3, np.NaN, 5, 6, None])
imp = SimpleImputer(missing_values='NaN', strategy='mean', axis=0)
imp.fit([1, 2, 3, 4, 5, 6, 7])
我试着逐行理解代码,所以我阅读了 sklearn 网站上的fit(X)
文档。 然而,它只是说
在 X 上拟合输入
我不明白这一点。 然后在进一步阅读后我发现了这个
在您可以估算任何东西之前,您必须通过调用 fit() 为 Imputer 提供统计信息以供使用
我也不明白
所以我的问题是:“统计”这个词是什么意思? 谢谢
SimpleImputer
用于根据策略参数(通过使用mean
或median
特征值、最most_frequent
值或constant
)填充nan
值。
fit()
function 将根据您的策略计算统计数据。
例如,如果strategy='mean'
。 拟合 function 将根据X
数据集计算平均值。
一旦完成,imputer 可用于填充数据集上的值,如下所示。
from sklearn.impute import SimpleImputer
import numpy as np
X_train = np.array([0,0, np.nan, 1, 1]).reshape((-1,1))
SimpleImputer(strategy='mean').fit_transform(X_train)
Output:
array([[0. ],
[0. ],
[0.5],
[1. ],
[1. ]])
请注意,您可以使用fit_transform()
执行fit()
和transform()
操作。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.