[英]Get first non-null value per row
我有一個示例數據框顯示如下。 對於每一行,我想首先檢查c1,如果它不為null,則檢查c2。 通過這種方式,找到第一個notnull列並將該值存儲到列結果。
ID c1 c2 c3 c4 result
1 a b a
2 cc dd cc
3 ee ff ee
4 gg gg
我現在正在使用這種方式。 但我想知道是否有更好的方法。(列名沒有任何模式,這只是樣本)
df["result"] = np.where(df["c1"].notnull(), df["c1"], None)
df["result"] = np.where(df["result"].notnull(), df["result"], df["c2"])
df["result"] = np.where(df["result"].notnull(), df["result"], df["c3"])
df["result"] = np.where(df["result"].notnull(), df["result"], df["c4"])
df["result"] = np.where(df["result"].notnull(), df["result"], "unknown)
當有很多列時,這種方法看起來不太好。
首先使用返回填充NaN
,然后通過iloc
選擇第一列:
df['result'] = df[['c1','c2','c3','c4']].bfill(axis=1).iloc[:, 0].fillna('unknown')
要么:
df['result'] = df.iloc[:, 1:].bfill(axis=1).iloc[:, 0].fillna('unknown')
print (df)
ID c1 c2 c3 c4 result
0 1 a b a NaN a
1 2 NaN cc dd cc cc
2 3 NaN ee ff ee ee
3 4 NaN NaN gg gg gg
表現 :
df = pd.concat([df] * 1000, ignore_index=True)
In [220]: %timeit df['result'] = df[['c1','c2','c3','c4']].bfill(axis=1).iloc[:, 0].fillna('unknown')
100 loops, best of 3: 2.78 ms per loop
In [221]: %timeit df['result'] = df.iloc[:, 1:].bfill(axis=1).iloc[:, 0].fillna('unknown')
100 loops, best of 3: 2.7 ms per loop
#jpp solution
In [222]: %%timeit
...: cols = df.iloc[:, 1:].T.apply(pd.Series.first_valid_index)
...:
...: df['result'] = [df.loc[i, cols[i]] for i in range(len(df.index))]
...:
1 loop, best of 3: 180 ms per loop
#cᴏʟᴅsᴘᴇᴇᴅ' s solution
In [223]: %timeit df['result'] = df.stack().groupby(level=0).first()
1 loop, best of 3: 606 ms per loop
建立
df = df.set_index('ID') # if necessary
df
c1 c2 c3 c4
ID
1 a b a NaN
2 NaN cc dd cc
3 NaN ee ff ee
4 NaN NaN gg gg
解
stack
+ groupby
+ first
stack
隱式刪除NaNs,因此groupby.first
保證為您提供第一個非null值(如果存在)。 重新分配結果將顯示缺少索引的任何NaN,您可以通過后續調用fillna
。
df['result'] = df.stack().groupby(level=0).first()
# df['result'] = df['result'].fillna('unknown') # if necessary
df
c1 c2 c3 c4 result
ID
1 a b a NaN a
2 NaN cc dd cc cc
3 NaN ee ff ee ee
4 NaN NaN gg gg gg
(請注意,對於較大的數據幀,這可能會很慢,因為您可能會使用@ jezrael的解決方案)
我正在使用Jpp的lookup
和數據
df=df.set_index('ID')
s=df.ne('').idxmax(1)
df['Result']=df.lookup(s.index,s)
df
Out[492]:
c1 c2 c3 c4 Result
ID
1 a b a
2 cc dd cc
3 ee ff ee
4 gg gg
一種方法是使用pd.DataFrame.lookup
, pd.Series.first_valid_index
在轉置的數據幀上應用pd.DataFrame.lookup
:
df = pd.DataFrame({'ID': [1, 2, 3, 4],
'c1': ['a', '', '', ''],
'c2': ['b', 'cc', '', ''],
'c3': ['' , 'dd', 'ee', ''],
'c4': ['', '', 'ff', 'gg']})
df = df.replace('', np.nan)
df['result'] = df.lookup(df.index, df.iloc[:, 1:].T.apply(pd.Series.first_valid_index))
print(df)
ID c1 c2 c3 c4 result
0 1 a b NaN NaN a
1 2 NaN cc dd NaN cc
2 3 NaN NaN ee ff ee
3 4 NaN NaN NaN gg gg
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.