根據另一列替換缺失值

Question

我正在嘗試根據另一列“國家/地區”的過濾來替換數據框中的缺失值

>>> data.head()
   Country  Advanced skiers, freeriders   Snow parks 
0       Greece                           NaN          NaN
1  Switzerland                           5.0          5.0
2          USA                           NaN          NaN
3       Norway                           NaN          NaN
4       Norway                           3.0          4.0

顯然，這只是一小段數據，但我希望將所有NaN值替換為每個功能的平均值。

我嘗試按國家/地區對數據進行分組，然后計算每列的平均值。 當我打印出結果數組時，它帶有預期值。 但是，當我將其放入.fillna()方法時，數據似乎保持不變

我已經從類似的帖子中嘗試過@DSM的解決方案，但不確定如何將其應用於多個列。

listOfRatings = ['Advanced skiers, freeriders', 'Snow parks']

print (data.groupby('Country')[listOfRatings].mean().fillna(0))
-> displays the expected results

data[listOfRatings] = data[listOfRatings].fillna(data.groupby('Country')[listOfRatings].mean().fillna(0))
-> appears to do nothing to the dataframe

假設這是完整的數據集，這就是我期望的結果。

   Country  Advanced skiers, freeriders   Snow parks 
0       Greece                           0.0          0.0
1  Switzerland                           5.0          5.0
2          USA                           0.0          0.0
3       Norway                           3.0          4.0
4       Norway                           3.0          4.0

誰能解釋我在做什么錯，以及如何修復代碼？

Answer 1

您可以使用transform來返回新的DataFrame ，其大小與原始值相同，並由聚合值填充：

print (data.groupby('Country')[listOfRatings].transform('mean').fillna(0))
   Advanced skiers, freeriders  Snow parks
0                          0.0         0.0
1                          5.0         5.0
2                          0.0         0.0
3                          3.0         4.0
4                          3.0         4.0

#dynamic generate all columns names without Country
listOfRatings = data.columns.difference(['Country'])
df1 = data.groupby('Country')[listOfRatings].transform('mean').fillna(0)
data[listOfRatings] = data[listOfRatings].fillna(df1)
print (data)

print (data)

       Country  Advanced skiers, freeriders  Snow parks
0       Greece                          0.0         0.0
1  Switzerland                          5.0         5.0
2          USA                          0.0         0.0
3       Norway                          3.0         4.0
4       Norway                          3.0         4.0

根據另一列替換缺失值

問題描述

1 個解決方案

解決方案1
2 已采納 2018-03-25 10:26:54

根據另一列替換缺失值

問題描述

1 個解決方案

解決方案1 2 已采納 2018-03-25 10:26:54

解決方案1
2 已采納 2018-03-25 10:26:54