[英]Sci-kit learn imputing values incorrectly
我正在使用Scikit-learn估算數據集的缺失值,但是查看數據集中我的一項功能的最大值,很顯然,這些缺失值的估算不正確。 首先,我使用pandas函數查看數據集中某個功能的最大10個值
ofData = mergeData.iloc[:, 3]
print ofData.nlargest(10)
這樣的輸出是
124 4.0
128 4.0
146 4.0
147 4.0
177 4.0
240 4.0
253 4.0
310 4.0
360 4.0
361 4.0
正確的我知道這是此功能的最大可能值。 然后我用Scikit學習數據。
imp = Imputer(missing_values='NaN', strategy='mean', axis=1)
nData = imp.fit_transform(mergeData)
nData = pd.DataFrame(nData)
然后,我再次使用pandas來查看此功能的最大10個值。
ofData = nData.iloc[:, 3]
print ofData.nlargest(10)
哪個輸出,
1030 77.571129
1056 67.804684
1308 62.780544
1212 61.902375
927 61.207525
870 60.592999
1100 55.604145
1722 55.308159
1415 52.637559
72 49.940297
這些值顯然不是該特征的平均值,因為它們都比插補前的最大值大。 我完全不知道這可能是什么原因,並且擔心它也可能影響我數據集中其他功能的推定。
既然你要在該列中的平均列替換缺失值,軸必須為0(這是默認值),而不是1您的代碼替換成一排的平均遺漏值。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.