[英]Sci-kit learn imputing values incorrectly
我正在使用Scikit-learn估算数据集的缺失值,但是查看数据集中我的一项功能的最大值,很显然,这些缺失值的估算不正确。 首先,我使用pandas函数查看数据集中某个功能的最大10个值
ofData = mergeData.iloc[:, 3]
print ofData.nlargest(10)
这样的输出是
124 4.0
128 4.0
146 4.0
147 4.0
177 4.0
240 4.0
253 4.0
310 4.0
360 4.0
361 4.0
正确的我知道这是此功能的最大可能值。 然后我用Scikit学习数据。
imp = Imputer(missing_values='NaN', strategy='mean', axis=1)
nData = imp.fit_transform(mergeData)
nData = pd.DataFrame(nData)
然后,我再次使用pandas来查看此功能的最大10个值。
ofData = nData.iloc[:, 3]
print ofData.nlargest(10)
哪个输出,
1030 77.571129
1056 67.804684
1308 62.780544
1212 61.902375
927 61.207525
870 60.592999
1100 55.604145
1722 55.308159
1415 52.637559
72 49.940297
这些值显然不是该特征的平均值,因为它们都比插补前的最大值大。 我完全不知道这可能是什么原因,并且担心它也可能影响我数据集中其他功能的推定。
既然你要在该列中的平均列替换缺失值,轴必须为0(这是默认值),而不是1您的代码替换成一排的平均遗漏值。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.