簡體   English   中英

科學工具學習錯誤地估算值

[英]Sci-kit learn imputing values incorrectly

我正在使用Scikit-learn估算數據集的缺失值,但是查看數據集中我的一項功能的最大值,很顯然,這些缺失值的估算不正確。 首先,我使用pandas函數查看數據集中某個功能的最大10個值

 ofData = mergeData.iloc[:, 3]
 print ofData.nlargest(10)

這樣的輸出是

 124    4.0
 128    4.0
 146    4.0
 147    4.0
 177    4.0
 240    4.0
 253    4.0
 310    4.0
 360    4.0
 361    4.0

正確的我知道這是此功能的最大可能值。 然后我用Scikit學習數據。

 imp = Imputer(missing_values='NaN', strategy='mean', axis=1)
 nData = imp.fit_transform(mergeData)
 nData = pd.DataFrame(nData)

然后,我再次使用pandas來查看此功能的最大10個值。

 ofData = nData.iloc[:, 3]
 print ofData.nlargest(10)

哪個輸出,

 1030    77.571129
 1056    67.804684
 1308    62.780544
 1212    61.902375
 927     61.207525
 870     60.592999
 1100    55.604145
 1722    55.308159
 1415    52.637559
 72      49.940297

這些值顯然不是該特征的平均值,因為它們都比插補前的最大值大。 我完全不知道這可能是什么原因,並且擔心它也可能影響我數據集中其他功能的推定。

既然你要在該中的平均替換缺失值,軸必須為0(這是默認值),而不是1您的代碼替換成一的平均遺漏值。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM