如何根據前一列填充 NaN 值

Question

我有一個沒有缺失數據（A）但有重復值的初始列。 如何用缺失的數據填充下一列 (B) 以便填充它並且左側的列在右側始終具有相同的值？ 我還希望任何其他列保持不變 (C)

例如，這就是我所擁有的

    A    B     C
1   1    20    4
2   2    NaN   8
3   3    NaN   2
4   2    30    9
5   3    40    1
6   1    NaN   3

這就是我想要的

    A    B     C
1   1    20    4
2   2    30*   8
3   3    40*   2
4   2    30    9
5   3    40    1
6   1    20*   3

填充值上的星號。

這需要使用非常大的數據幀進行擴展。

此外，如果我在左列中有一個值，而在單獨觀察的右側有多個值，我將如何填充平均值？

Answer 1

您可以在'A'上使用groupby並使用first在'B'找到第一個對應的值（它不會選擇NaN ）。

import pandas as pd

df = pd.DataFrame({'A':[1,2,3,2,3,1], 
                   'B':[20, None, None, 30, 40, None], 
                   'C': [4,8,2,9,1,3]})

# find first 'B' value for each 'A'
lookup = df[['A', 'B']].groupby('A').first()['B']

# only use rows where 'B' is NaN
nan_mask = df['B'].isnull()

# replace NaN values in 'B' with lookup values
df['B'].loc[nan_mask] = df.loc[nan_mask].apply(lambda x: lookup[x['A']], axis=1)

print(df)

哪些輸出：

   A     B  C
0  1  20.0  4
1  2  30.0  8
2  3  40.0  2
3  2  30.0  9
4  3  40.0  1
5  1  20.0  3

如果'B'有許多NaN值，您可能希望在使用groupby之前排除它們。

import pandas as pd

df = pd.DataFrame({'A':[1,2,3,2,3,1], 
                   'B':[20, None, None, 30, 40, None], 
                   'C': [4,8,2,9,1,3]})

# Only use rows where 'B' is NaN
nan_mask = df['B'].isnull()

# Find first 'B' value for each 'A'
lookup = df[~nan_mask][['A', 'B']].groupby('A').first()['B']

df['B'].loc[nan_mask] = df.loc[nan_mask].apply(lambda x: lookup[x['A']], axis=1)

print(df)

Answer 2

您可以先執行 sort_values，然后根據 A 列向前填充 B 列。實現這一點的方法是：

import pandas as pd
import numpy as np

x = {'A':[1,2,3,2,3,1],
     'B':[20,np.nan,np.nan,30,40,np.nan],
     'C':[4,8,2,9,1,3]}

df = pd.DataFrame(x)

#sort_values first, then forward fill based on column B
#this will get the right values for you while maintaing
#the original order of the dataframe
df['B'] = df.sort_values(by=['A','B'])['B'].ffill()
print (df)

輸出將是：

原始數據：

   A     B  C
0  1  20.0  4
1  2   NaN  8
2  3   NaN  2
3  2  30.0  9
4  3  40.0  1
5  1   NaN  3

更新數據：

   A     B  C
0  1  20.0  4
1  2  30.0  8
2  3  40.0  2
3  2  30.0  9
4  3  40.0  1
5  1  20.0  3

如何根據前一列填充 NaN 值

問題描述

2 個解決方案

解決方案1
2 已采納 2020-02-12 13:04:23

解決方案2
0 2020-09-03 04:51:57

如何根據前一列填充 NaN 值

問題描述

2 個解決方案

解決方案1 2 已采納 2020-02-12 13:04:23

解決方案2 0 2020-09-03 04:51:57

解決方案1
2 已采納 2020-02-12 13:04:23

解決方案2
0 2020-09-03 04:51:57