熊貓-在DataFrame中選擇較低級別進行填充

Question

我有一個這樣的DataFrame（它是一個MultiIndexed DataFrame嗎？不確定我是否正確理解了這一點...）：

df = pd.DataFrame({'index' : range(8),
'variable1' : ["A","A","B","B","A","B","B","A"],
'variable2' : ["a","b","a","b","a","b","a","b"],
'variable3' : ["x","x","x","y","y","y","x","y"],
'result': [1,0,0,1,1,0,0,1]})

df2 = df.pivot_table(values='result',rows='index',cols=['variable1','variable2','variable3'])

variable1   A               B    
variable2   a       b       a   b
variable3   x   y   x   y   x   y
index                            
0           1 NaN NaN NaN NaN NaN
1         NaN NaN   0 NaN NaN NaN
2         NaN NaN NaN NaN   0 NaN
3         NaN NaN NaN NaN NaN   1
4         NaN   1 NaN NaN NaN NaN
5         NaN NaN NaN NaN NaN   0
6         NaN NaN NaN NaN   0 NaN
7         NaN NaN NaN   1 NaN NaN

現在我想做的是ffill()值，但僅適用於variable3 == 'y' 。 理想的結果是：

variable1   A               B    
variable2   a       b       a   b
variable3   x   y   x   y   x   y
index                            
0           1 NaN NaN NaN NaN NaN
1         NaN NaN   0 NaN NaN NaN
2         NaN NaN NaN NaN   0 NaN
3         NaN NaN NaN NaN NaN   1
4         NaN   1 NaN NaN NaN   1
5         NaN   1 NaN NaN NaN   0
6         NaN   1 NaN NaN   0   0
7         NaN   1 NaN   1 NaN   0

我知道我可以通過遍歷variable1和variable2來做到這一點，因為他們每個人都做類似的事情：

df2['A']['a']['y'].ffill()

但我想應該有一種避免這種情況的方法...

Answer 1

由於需要分配結果，因此有些棘手。

首先交換級別，將變量3放在頂部； 然后輕松地計算出填充量並分配回去。

In [44]: x = df2.swaplevel('variable1','variable3',axis=1)

In [45]: x['y'] = x['y'].ffill()

In [46]: x.swaplevel('variable3','variable1',axis=1)
Out[46]: 
variable1   A               B    
variable2   a       b       a   b
variable3   x   y   x   y   x   y
index                            
0           1 NaN NaN NaN NaN NaN
1         NaN NaN   0 NaN NaN NaN
2         NaN NaN NaN NaN   0 NaN
3         NaN NaN NaN NaN NaN   1
4         NaN   1 NaN NaN NaN   1
5         NaN   1 NaN NaN NaN   0
6         NaN   1 NaN NaN   0   0
7         NaN   1 NaN   1 NaN   0

在0.13（即將推出）中，您可以執行此操作

選擇所需的子部分，並提供drop_level=False以將其作為完整部分返回（例如，不選擇我們選擇的水平），然后填充它。

In [77]: df_sub = df2.xs('y',level='variable3',axis=1,drop_level=False).ffill()

In [78]: df_sub
Out[78]: 
variable1   A       B
variable2   a   b   b
variable3   y   y   y
index                
0         NaN NaN NaN
1         NaN NaN NaN
2         NaN NaN NaN
3         NaN NaN   1
4           1 NaN   1
5           1 NaN   0
6           1 NaN   0
7           1   1   0

In [79]: df2.loc[:,df_sub.columns] = df_sub

In [80]: df2
Out[80]: 
variable1   A               B    
variable2   a       b       a   b
variable3   x   y   x   y   x   y
index                            
0           1 NaN NaN NaN NaN NaN
1         NaN NaN   0 NaN NaN NaN
2         NaN NaN NaN NaN   0 NaN
3         NaN NaN NaN NaN NaN   1
4         NaN   1 NaN NaN NaN   1
5         NaN   1 NaN NaN NaN   0
6         NaN   1 NaN NaN   0   0
7         NaN   1 NaN   1 NaN   0

Answer 2

從熊貓0.14.0開始，可能會有更好的方法：

df2.loc[:, (slice(None), slice(None), 'y')] = df2.loc[:, (slice(None), slice(None), 'y')].ffill()

或idx = pd.IndexSlice df2.loc[:, (idx[:,:,'y'])] = df2.loc[:, (idx[:,:,'y'])].ffill()

熊貓-在DataFrame中選擇較低級別進行填充

問題描述

2 個解決方案

解決方案1
1 已采納 2013-10-11 13:47:40

解決方案2
0 2014-08-01 07:22:35

熊貓-在DataFrame中選擇較低級別進行填充

問題描述

2 個解決方案

解決方案1 1 已采納 2013-10-11 13:47:40

解決方案2 0 2014-08-01 07:22:35

解決方案1
1 已采納 2013-10-11 13:47:40

解決方案2
0 2014-08-01 07:22:35