sklearn.impute fit() function

Question

我正在阅读Python 的《傻瓜数据科学》 （第 2 版），第 6 章，输入缺失数据部分。 本书展示了使用scikit-learn库的示例代码。

import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer

s = pd.Series([1, 2, 3, np.NaN, 5, 6, None])
imp = SimpleImputer(missing_values='NaN', strategy='mean', axis=0)
imp.fit([1, 2, 3, 4, 5, 6, 7])

我试着逐行理解代码，所以我阅读了 sklearn 网站上的fit(X)文档。 然而，它只是说

在 X 上拟合输入

我不明白这一点。 然后在进一步阅读后我发现了这个

在您可以估算任何东西之前，您必须通过调用 fit() 为 Imputer 提供统计信息以供使用

我也不明白

所以我的问题是：“统计”这个词是什么意思？ 谢谢

Answer 1

SimpleImputer用于根据策略参数（通过使用mean或median特征值、最most_frequent值或constant ）填充nan值。

fit() function 将根据您的策略计算统计数据。

例如，如果strategy='mean' 。 拟合 function 将根据X数据集计算平均值。

一旦完成，imputer 可用于填充数据集上的值，如下所示。

from sklearn.impute import SimpleImputer
import numpy as np
X_train = np.array([0,0, np.nan, 1, 1]).reshape((-1,1))

SimpleImputer(strategy='mean').fit_transform(X_train)

Output：

array([[0. ],
       [0. ],
       [0.5],
       [1. ],
       [1. ]])

请注意，您可以使用fit_transform()执行fit()和transform()操作。

sklearn.impute fit() function

问题描述

1 个解决方案

解决方案1
1 2021-08-17 05:57:44

sklearn.impute fit() function

问题描述

1 个解决方案

解决方案1 1 2021-08-17 05:57:44

解决方案1
1 2021-08-17 05:57:44