Pandas DataFrame：如何在多个条件下选择行？

Question

我正在尝试根据需要满足的条件列表选择DataFrame的行。 这些条件存储在字典中，格式为{column：max-value}。

这是一个例子： dict = {'name': 4.0, 'sex': 0.0, 'city': 2, 'age': 3.0}

我需要选择所有DataFrame行，其中相应的属性小于或等于字典中的相应值。

我知道根据两个或多个条件选择行我可以写：

rows = df[(df[column1] <= dict[column1]) & (df[column2] <= dict[column2])]

我的问题是，如何以Pythonic方式选择与字典中存在的条件匹配的行？ 我这样试过，

keys = dict.keys() 
rows = df[(df[kk] <= dict[kk]) for kk in keys]

但它给了我一个错误=“ [ expected ”即使放[符号也不会消失[ 。

Answer 1

我们可以像这样使用DataFrame.query（）方法：

In [109]: dct = {'name': 4.0, 'sex': 0.0, 'city': 2, 'age': 3.0}

In [110]: qry = ' and '.join(['{} <= {}'.format(k,v) for k,v in dct.items()])

In [111]: qry
Out[111]: 'name <= 4.0 and sex <= 0.0 and city <= 2 and age <= 3.0'

In [112]: df.query(qry)
...

Answer 2

您可以利用Pandas的自动轴对齐。 给定具有['age', 'city', 'name', 'sex']和具有相同索引的Series的DataFrame，您可以将DataFrame中的每个条目与Series中的相应值进行比较

In [29]: df < pd.Series(dct)
Out[29]: 
      age   city   name    sex
0   False  False  False  False
1   False  False  False  False
2    True  False  False  False
3   False   True  False  False
4    True   True   True  False
...

然后你可以找到所有使用True的行

mask = (df <= pd.Series(dct)).all(axis=1)

并使用df.loc[mask, :]选择那些行。 例如，

import numpy as np
import pandas as pd
np.random.seed(2017)
N = 300
df = pd.DataFrame({'name':np.random.randint(10, size=N),
                   'sex':np.random.randint(2, size=N),
                   'city':np.random.randint(10, size=N),
                   'age':np.random.randint(10, size=N)})
dct = {'name': 4.0, 'sex': 0.0, 'city': 2, 'age': 3.0}

mask = (df <= pd.Series(dct)).all(axis=1)
print(df.loc[mask, :])

产量

     age  city  name  sex
7      3     2     0    0
10     1     2     4    0
150    1     2     4    0
188    2     2     2    0
198    3     2     3    0
229    1     2     0    0
254    1     2     2    0
275    3     2     1    0
276    0     1     4    0
299    3     1     2    0

Answer 3

你也可以尝试：

import pandas as pd
import numpy as np


N = 300

df = pd.DataFrame({'name':np.random.randint(10, size=N),
                   'sex':np.random.randint(2, size=N),
                   'city':np.random.randint(10, size=N),
                   'age':np.random.randint(10, size=N)})

dct = {'name': 4.0, 'sex': 0.0, 'city': 2, 'age': 3.0}

df.loc[np.prod([df[k] <= v for k,v in dct.items()],axis=0).astype(bool),:]

#      age  city  name  sex
# 7      3     2     0    0
# 10     1     2     4    0
# 150    1     2     4    0
# 188    2     2     2    0
# 198    3     2     3    0
# 229    1     2     0    0
# 254    1     2     2    0
# 275    3     2     1    0
# 276    0     1     4    0
# 299    3     1     2    0

Pandas DataFrame：如何在多个条件下选择行？

问题描述

3 个解决方案

解决方案1
4 已采纳 2017-08-09 12:32:39

解决方案2
3 2017-08-09 12:42:12

解决方案3
0 2017-08-09 12:50:19

Pandas DataFrame：如何在多个条件下选择行？

问题描述

3 个解决方案

解决方案1 4 已采纳 2017-08-09 12:32:39

解决方案2 3 2017-08-09 12:42:12

解决方案3 0 2017-08-09 12:50:19

解决方案1
4 已采纳 2017-08-09 12:32:39

解决方案2
3 2017-08-09 12:42:12

解决方案3
0 2017-08-09 12:50:19