用 pandas dataframe 中同一列上的不同值替換缺失值

Question

     A      B     C   D
1  2010    one    0   0
2  2020    one    2   4
3  2007    two    0   8
4  2010    one    8   4
5  2020    four   6  12
6  2007    three  0  14
7  2006    four   7  14
8  2010    two    10 12

我需要用 C 年值的平均值替換 0。例如 2010 C 值將是 9。最好的方法是什么？ 我有超過 10,000 行。

Answer 1

您可以使用replace將np.nan列中的 0 更改為 np.nan，並將fillna用於map的年度平均值：

df.C.replace({0:np.nan},inplace=True)

df.C.fillna(
    df.A.map(
        df.groupby(df['A']).C.mean()\
            .to_dict()
        ),inplace=True
    )

print(df)

      A      B     C   D
0  2010    one   9.0   0
1  2020    one   2.0   4
2  2007    two   NaN   8
3  2010    one   8.0   4
4  2020   four   6.0  12
5  2007  three   NaN  14
6  2006   four   7.0  14
7  2010    two  10.0  12

2007 仍然是NaN ，因為我們在初始數據中除了 0 之外沒有其他值。

Answer 2

這就是我認為我會做的事情。 下面的代碼將是偽代碼。

1：您找到每年的平均值，並將其放入字典中。

my_year_dict = {'2020':xxx,'2021':xxx}

2：使用apply & lambda函數

df[New C Col] = df[C].apply(lambda x: my_year_dict[x] if x is 0)

希望這可以是一個開始！

用 pandas dataframe 中同一列上的不同值替換缺失值

問題描述

2 個解決方案

解決方案1
0 2021-12-31 18:42:39

解決方案2
-1 2021-12-31 14:06:28

用 pandas dataframe 中同一列上的不同值替換缺失值

問題描述

2 個解決方案

解決方案1 0 2021-12-31 18:42:39

解決方案2 -1 2021-12-31 14:06:28

解決方案1
0 2021-12-31 18:42:39

解決方案2
-1 2021-12-31 14:06:28