熊猫：如何选择具有多个条件的数据框的边框

Question

我有一个如下数据框：

    df = pd.DataFrame({'COND1' : [0,4,4,4,0],
                   'NAME' : ['one', 'one', 'two', 'three', 'three'],
                   'COND2' : ['a', 'b', 'a', 'a','b'],
                   'value': [30, 45, 18, 23, 77]})

我们有两个条件： [0,4]和['a','b']

    df
        COND1   COND2   NAME    value
  0       0      a       one    30
  1       4      a       one    45
  2       4      b       one    25
  3       4      a       two    18
  4       4      a      three   23
  5       4      b      three   77

如果我有信息，我想为每个名称选择条件为COND1=0 & COND2=a的子集，否则选择COND1=4 & COND2=b 。

结果数据框将是：

    df
        COND1   COND2   NAME    value
  0       0      a       one    30
  1      NaN    Nan      two    NaN
  2       4      b      three   77

我尝试执行以下操作：

df[ ((df['COND1'] == 0 ) & (df['COND2'] == 'a') | 
(df['COND1'] == 4 ) & (df['COND2'] == 'b'))]

Answer 1

尝试使用带有reindex drop_duplicates （删除满足两个条件的NAME仅保留一个）来修改您的结果（添加回NAME不满足任何条件）

Newdf=df[ ((df['COND1'] == 0 ) & (df['COND2'] == 'a') | (df['COND1'] == 4 ) & (df['COND2'] == 'b'))]
Newdf.sort_values('COND1').drop_duplicates(['NAME']).set_index('NAME').reindex(df.NAME.unique()).reset_index()
Out[378]: 
    NAME  COND1 COND2  value
0    one    0.0     a   30.0
1    two    NaN   NaN    NaN
2  three    4.0     b   77.0

Answer 2

这是一个使用助手列的可扩展解决方案。 这个想法是创建一个字典映射顺序，并将其应用于两个系列的组合。 排序和删除重复项。

import numpy as np

df = pd.DataFrame({'COND1' : [0,4,4,4,4,4],
                   'NAME' : ['one', 'one', 'one', 'two', 'three', 'three'],
                   'COND2' : ['a', 'a', 'b', 'a', 'a','b'],
                   'value': [30, 45, 25, 18, 23, 77]})

# define order dictionary and apply to dataframe
order = {(0, 'a'): 0, (4, 'b'): 1}
df['order'] = df.set_index(['COND1', 'COND2']).index.map(order.get)

# if not found in dictionary, convert columns to NaN
df.loc[df['order'].isnull(), ['COND1', 'COND2', 'value']] = np.nan

# sort values, drop duplicates, drop helper column
res = df.sort_values('order').drop_duplicates(subset=['NAME']).drop('order', 1)

print(res)

   COND1   NAME COND2  value
0    0.0    one     a   30.0
5    4.0  three     b   77.0
3    NaN    two   NaN    NaN

Answer 3

我认为这可行：

def conds_are(x,y):
    return df['COND1'].eq(x) & df['COND2'].eq(y)

def name_in(f):
    return df['NAME'].isin(df.loc[f,'NAME'].unique())

# Find rows matching conditions.
good = conds_are(0,'a')
good |= conds_are(4,'b') & ~name_in(good)

# Did we miss any names?
bad = ~name_in(good)

# Build DataFrame from surviving rows.
df1 = df.loc[good|bad].copy()
df1.loc[bad,df.columns.drop('NAME')] = np.nan

输出：

   COND1   NAME COND2  value
0    0.0    one     a   30.0
2    NaN    two   NaN    NaN
4    4.0  three     b   77.0

您实际上并不需要定义这些函数，但是IMO使它们易于阅读。

注意： value列是浮点数，因为int在pandas中不可为空。

熊猫：如何选择具有多个条件的数据框的边框

问题描述

3 个解决方案

解决方案1
0 2018-07-02 18:38:36

解决方案2
0 2018-07-02 18:51:26

解决方案3
0 2018-09-18 16:13:25

熊猫：如何选择具有多个条件的数据框的边框

问题描述

3 个解决方案

解决方案1 0 2018-07-02 18:38:36

解决方案2 0 2018-07-02 18:51:26

解决方案3 0 2018-09-18 16:13:25

解决方案1
0 2018-07-02 18:38:36

解决方案2
0 2018-07-02 18:51:26

解决方案3
0 2018-09-18 16:13:25