[英]pandas - selecting a lower level in a DataFrame to do a ffill
我有一個這樣的DataFrame(它是一個MultiIndexed DataFrame嗎?不確定我是否正確理解了這一點...):
df = pd.DataFrame({'index' : range(8),
'variable1' : ["A","A","B","B","A","B","B","A"],
'variable2' : ["a","b","a","b","a","b","a","b"],
'variable3' : ["x","x","x","y","y","y","x","y"],
'result': [1,0,0,1,1,0,0,1]})
df2 = df.pivot_table(values='result',rows='index',cols=['variable1','variable2','variable3'])
variable1 A B
variable2 a b a b
variable3 x y x y x y
index
0 1 NaN NaN NaN NaN NaN
1 NaN NaN 0 NaN NaN NaN
2 NaN NaN NaN NaN 0 NaN
3 NaN NaN NaN NaN NaN 1
4 NaN 1 NaN NaN NaN NaN
5 NaN NaN NaN NaN NaN 0
6 NaN NaN NaN NaN 0 NaN
7 NaN NaN NaN 1 NaN NaN
現在我想做的是ffill()
值,但僅適用於variable3 == 'y'
。 理想的結果是:
variable1 A B
variable2 a b a b
variable3 x y x y x y
index
0 1 NaN NaN NaN NaN NaN
1 NaN NaN 0 NaN NaN NaN
2 NaN NaN NaN NaN 0 NaN
3 NaN NaN NaN NaN NaN 1
4 NaN 1 NaN NaN NaN 1
5 NaN 1 NaN NaN NaN 0
6 NaN 1 NaN NaN 0 0
7 NaN 1 NaN 1 NaN 0
我知道我可以通過遍歷variable1
和variable2
來做到這一點,因為他們每個人都做類似的事情:
df2['A']['a']['y'].ffill()
但我想應該有一種避免這種情況的方法...
由於需要分配結果,因此有些棘手。
首先交換級別,將變量3放在頂部; 然后輕松地計算出填充量並分配回去。
In [44]: x = df2.swaplevel('variable1','variable3',axis=1)
In [45]: x['y'] = x['y'].ffill()
In [46]: x.swaplevel('variable3','variable1',axis=1)
Out[46]:
variable1 A B
variable2 a b a b
variable3 x y x y x y
index
0 1 NaN NaN NaN NaN NaN
1 NaN NaN 0 NaN NaN NaN
2 NaN NaN NaN NaN 0 NaN
3 NaN NaN NaN NaN NaN 1
4 NaN 1 NaN NaN NaN 1
5 NaN 1 NaN NaN NaN 0
6 NaN 1 NaN NaN 0 0
7 NaN 1 NaN 1 NaN 0
在0.13(即將推出)中,您可以執行此操作
選擇所需的子部分,並提供drop_level=False
以將其作為完整部分返回(例如,不選擇我們選擇的水平),然后填充它。
In [77]: df_sub = df2.xs('y',level='variable3',axis=1,drop_level=False).ffill()
In [78]: df_sub
Out[78]:
variable1 A B
variable2 a b b
variable3 y y y
index
0 NaN NaN NaN
1 NaN NaN NaN
2 NaN NaN NaN
3 NaN NaN 1
4 1 NaN 1
5 1 NaN 0
6 1 NaN 0
7 1 1 0
In [79]: df2.loc[:,df_sub.columns] = df_sub
In [80]: df2
Out[80]:
variable1 A B
variable2 a b a b
variable3 x y x y x y
index
0 1 NaN NaN NaN NaN NaN
1 NaN NaN 0 NaN NaN NaN
2 NaN NaN NaN NaN 0 NaN
3 NaN NaN NaN NaN NaN 1
4 NaN 1 NaN NaN NaN 1
5 NaN 1 NaN NaN NaN 0
6 NaN 1 NaN NaN 0 0
7 NaN 1 NaN 1 NaN 0
從熊貓0.14.0開始,可能會有更好的方法:
df2.loc[:, (slice(None), slice(None), 'y')] = df2.loc[:, (slice(None), slice(None), 'y')].ffill()
或idx = pd.IndexSlice df2.loc[:, (idx[:,:,'y'])] = df2.loc[:, (idx[:,:,'y'])].ffill()
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.