科学工具学习错误地估算值

Question

我正在使用Scikit-learn估算数据集的缺失值，但是查看数据集中我的一项功能的最大值，很显然，这些缺失值的估算不正确。 首先，我使用pandas函数查看数据集中某个功能的最大10个值

 ofData = mergeData.iloc[:, 3]
 print ofData.nlargest(10)

这样的输出是

正确的我知道这是此功能的最大可能值。 然后我用Scikit学习数据。

 imp = Imputer(missing_values='NaN', strategy='mean', axis=1)
 nData = imp.fit_transform(mergeData)
 nData = pd.DataFrame(nData)

然后，我再次使用pandas来查看此功能的最大10个值。

 ofData = nData.iloc[:, 3]
 print ofData.nlargest(10)

哪个输出，

 1030    77.571129
 1056    67.804684
 1308    62.780544
 1212    61.902375
 927     61.207525
 870     60.592999
 1100    55.604145
 1722    55.308159
 1415    52.637559
 72      49.940297

这些值显然不是该特征的平均值，因为它们都比插补前的最大值大。 我完全不知道这可能是什么原因，并且担心它也可能影响我数据集中其他功能的推定。

Answer 1

既然你要在该列中的平均列替换缺失值，轴必须为0（这是默认值），而不是1您的代码替换成一排的平均遗漏值。

科学工具学习错误地估算值

问题描述

1 个解决方案

解决方案1
1 已采纳 2017-04-29 23:13:37

科学工具学习错误地估算值

问题描述

1 个解决方案

解决方案1 1 已采纳 2017-04-29 23:13:37

解决方案1
1 已采纳 2017-04-29 23:13:37