科學工具學習錯誤地估算值

Question

我正在使用Scikit-learn估算數據集的缺失值，但是查看數據集中我的一項功能的最大值，很顯然，這些缺失值的估算不正確。 首先，我使用pandas函數查看數據集中某個功能的最大10個值

 ofData = mergeData.iloc[:, 3]
 print ofData.nlargest(10)

這樣的輸出是

正確的我知道這是此功能的最大可能值。 然后我用Scikit學習數據。

 imp = Imputer(missing_values='NaN', strategy='mean', axis=1)
 nData = imp.fit_transform(mergeData)
 nData = pd.DataFrame(nData)

然后，我再次使用pandas來查看此功能的最大10個值。

 ofData = nData.iloc[:, 3]
 print ofData.nlargest(10)

哪個輸出，

 1030    77.571129
 1056    67.804684
 1308    62.780544
 1212    61.902375
 927     61.207525
 870     60.592999
 1100    55.604145
 1722    55.308159
 1415    52.637559
 72      49.940297

這些值顯然不是該特征的平均值，因為它們都比插補前的最大值大。 我完全不知道這可能是什么原因，並且擔心它也可能影響我數據集中其他功能的推定。

Answer 1

既然你要在該列中的平均列替換缺失值，軸必須為0（這是默認值），而不是1您的代碼替換成一排的平均遺漏值。

科學工具學習錯誤地估算值

問題描述

1 個解決方案

解決方案1
1 已采納 2017-04-29 23:13:37

科學工具學習錯誤地估算值

問題描述

1 個解決方案

解決方案1 1 已采納 2017-04-29 23:13:37

解決方案1
1 已采納 2017-04-29 23:13:37