如何基於熊貓數據框中的行條件添加新列？

Question

我想基於基於同一數據幀的兩個不同列的行條件添加新列。

我在Dataframe下面-

df1_data = {'e_id': {0:'101',1:'',2:'103',3:'',4:'105',5:'',6:''},
        'r_id': {0:'',1:'502',2:'',3:'504',4:'',5:'506',6:''}}
df=pd.DataFrame(df1_data)
print df

我想添加名為“ sym”的新列。

條件-

如果'e_id'列值不為null，則sym列值為'e_id'列值。
如果“ r_id”列值不為null，則sym列值為“ r_id”列值。
如果'e_id'和'r_id'的兩個列值均為null，則從pandas數據框中刪除該特定行。

我嘗試了以下代碼-

df1_data = {'e_id': {0:'101',1:'',2:'103',3:'',4:'105',5:''},
        'r_id': {0:'',1:'502',2:'',3:'504',4:'',5:'506'}}

df=pd.DataFrame(df1_data)
print df

if df['e_id'].any():
    df['sym'] = df['e_id']
print df

if df['r_id'].any():
    df['sym'] = df['r_id']
print df

但這給了我錯誤的輸出。

預期產量-

  e_id r_id  sym
0  101       101
1       502  502
2  103       103
3       504  504
4  105       105
5       506  506

Answer 1

pandas
使用mask + fillna + assign

d1 = df.mask(df == '')
df.assign(sym=d1.e_id.fillna(d1.r_id)).dropna(subset=['sym'])

  e_id r_id  sym
0  101       101
1       502  502
2  103       103
3       504  504
4  105       105
5       506  506

這個怎么運作

我需要假設您''值是空值，以掩蓋您''值
通過使用fillna如果e_id不為null，則使用e_id否則，如果r_id不為null，則使用r_id
僅當新r_id null時， r_id的值為subset=['sym'] dropna才刪除行，並且僅當e_id和r_id均為null r_id null

numpy
使用np.where + assign

e = df.e_id.values
r = df.r_id.values
df.assign(
    sym=np.where(
        e != '', e,
        np.where(r != '', r, np.nan)
    )
).dropna(subset=['sym'])

  e_id r_id  sym
0  101       101
1       502  502
2  103       103
3       504  504
4  105       105
5       506  506

numpy v2
從值重建數據框

v = df.values
m = (v != '').any(1)
v = v[m]
c1 = v[:, 0]
c2 = v[:, 1]
pd.DataFrame(
    np.column_stack([v, np.where(c1 != '', c1, c2)]),
    df.index[m], df.columns.tolist() + ['sym']
)

  e_id r_id  sym
0  101       101
1       502  502
2  103       103
3       504  504
4  105       105
5       506  506

定時

%%timeit
e = df.e_id.values
r = df.r_id.values
df.assign(sym=np.where(e != '', e, np.where(r != '', r, np.nan))).dropna(subset=['sym'])
1000 loops, best of 3: 1.23 ms per loop

%%timeit
d1 = df.mask(df == '')
df.assign(sym=d1.e_id.fillna(d1.r_id)).dropna(subset=['sym'])
100 loops, best of 3: 2.44 ms per loop

%%timeit
v = df.values
m = (v != '').any(1)
v = v[m]
c1 = v[:, 0]
c2 = v[:, 1]
pd.DataFrame(
    np.column_stack([v, np.where(c1 != '', c1, c2)]),
    df.index[m], df.columns.tolist() + ['sym']
)
1000 loops, best of 3: 204 µs per loop

Answer 2

首先通過使用any進行boolean indexing過濾兩個空列：

df = df[(df != '').any(1)]
#alternatively
#df = df[(df['e_id'] != '') | (df['r_id'] != '')]

然后將mask與combine_first一起combine_first ：

df['sym'] = df['e_id'].mask(df['e_id'] == '').combine_first(df['r_id'])
print (df)

  e_id r_id  sym
0  101       101
1       502  502
2  103       103
3       504  504
4  105       105
5       506  506

帶過濾和numpy.where解決方案：

df = df[(df['e_id'] != '') | (df['r_id'] != '')]
e_id = df.e_id.values
r_id = df.r_id.values
df['sym'] = np.where(e_id != '', e_id, r_id)
print (df)
  e_id r_id  sym
0  101       101
1       502  502
2  103       103
3       504  504
4  105       105
5       506  506

Answer 3

您可以使用列pandas.DataFrame.mask和'other'參數，從列“ e_id”開始，並在“ e_id”為“空”時將其值替換為“ r_id”值：

df['sym'] = df['e_id'].mask(df['e_id'] == '', other=df['r_id'], axis=0)

那么您只需要刪除sym為“空”的行

df = df[df.sym!='']

如何基於熊貓數據框中的行條件添加新列？

問題描述

3 個解決方案

解決方案1
2 已采納 2017-05-03 06:06:25

解決方案2
2 2017-05-03 06:08:49

解決方案3
0 2019-01-10 17:52:44

如何基於熊貓數據框中的行條件添加新列？

問題描述

3 個解決方案

解決方案1 2 已采納 2017-05-03 06:06:25

解決方案2 2 2017-05-03 06:08:49

解決方案3 0 2019-01-10 17:52:44

解決方案1
2 已采納 2017-05-03 06:06:25

解決方案2
2 2017-05-03 06:08:49

解決方案3
0 2019-01-10 17:52:44