熊猫：使用多个条件从数据框中选择行的有效方法

Question

我正在使用多个条件（与变量进行比较）选择/过滤DataFrame，如下所示：

results = df1[
    (df1.Year == Year) &
    (df1.headline == text) &
    (df1.price > price1) &
    (df1.price < price2) &
    (df1.promo > promo1) &
    (df1.promo < promo2)
]

尽管此方法有效，但速度非常慢。 因此，我想知道，有没有更有效的方法使用熊猫基于多个条件来筛选/选择行？

Answer 1

在我个人看来，您当前的方法在书上与Pandas语法一样公平。

一种优化的方法（如果确实需要这样做）是使用基础的NumPy数组来生成布尔掩码。 一般而言，Pandas在使操作员和NumPy过载方面会带来一些额外的开销。 （折衷可以说是更大的灵活性和对NaN数据的内在平滑处理。）

price = df1.price.values
promo = df1.promo.values

# Note: this is a view to a slice of df1
results = df1.loc[
    (df1.Year.values == Year) &
    (df1.headline.values == text) &
    (price > price1) &
    (price < price2) &
    (promo > promo1) &
    (promo < promo2)
]

其次，检查您是否已经在使用numexpr ，启用了Pandas可以做到：

>>> import pandas as pd
>>> pd.get_option('compute.use_numexpr')  # use `pd.set_option()` if False
True

熊猫：使用多个条件从数据框中选择行的有效方法

问题描述

1 个解决方案

解决方案1
2 已采纳 2018-08-27 19:38:50

熊猫：使用多个条件从数据框中选择行的有效方法

问题描述

1 个解决方案

解决方案1 2 已采纳 2018-08-27 19:38:50

解决方案1
2 已采纳 2018-08-27 19:38:50