pandas dataframe：loc 與查詢性能

Question

我在 python 中有 2 個數據幀，我想查詢數據。

DF1：4M 記錄 x 3 列。 查詢 function seams 比 loc function 更有效率。
DF2：2K 記錄 x 6 列。 loc function 接縫比查詢 function 更有效。

兩個查詢都返回一條記錄。 模擬是通過在循環中運行相同的操作 10K 次來完成的。

運行 python 2.7 和 pandas 0.16.0

有什么提高查詢速度的建議嗎？

Answer 1

為了提高性能，可以使用numexpr ：

import numexpr

np.random.seed(125)
N = 40000000
df = pd.DataFrame({'A':np.random.randint(10, size=N)})

def ne(df):
    x = df.A.values
    return df[numexpr.evaluate('(x > 5)')]
print (ne(df))

In [138]: %timeit (ne(df))
1 loop, best of 3: 494 ms per loop

In [139]: %timeit df[df.A > 5]
1 loop, best of 3: 536 ms per loop

In [140]: %timeit df.query('A > 5')
1 loop, best of 3: 781 ms per loop

In [141]: %timeit df[df.eval('A > 5')]
1 loop, best of 3: 770 ms per loop

import numexpr
np.random.seed(125)

def ne(x):
    x = x.A.values
    return x[numexpr.evaluate('(x > 5)')]

def be(x):
    return x[x.A > 5]

def q(x):
    return x.query('A > 5')

def ev(x):
    return x[x.eval('A > 5')]


def make_df(n):
    df = pd.DataFrame(np.random.randint(10, size=n), columns=['A'])
    return df


perfplot.show(
    setup=make_df,
    kernels=[ne, be, q, ev],
    n_range=[2**k for k in range(2, 25)],
    logx=True,
    logy=True,
    equality_check=False,  
    xlabel='len(df)')

編輯：

圖形具有修飾ne和改進的be ：

def ne(x):
    return x[numexpr.evaluate('(x > 5)')]

def bex(x):
    return x[x.A.values > 5]

Answer 2

我添加了 the.loc function 並使用相同的代碼@jezrael 用於測試python 3.9.5和pandas 1.2.5中的性能。

import numpy as np
import pandas as pd
import numexpr
import perfplot
np.random.seed(125)

def ne(x):
    return x[numexpr.evaluate('(x > 5)')]

def bex(x):
    return x[x.A.values > 5]

def be(x):
    return x[x.A > 5]

def lc(x):
    return x.loc[x.A > 5]

def lcx(x):
    return x.loc[x.A.values > 5]

def q(x):
    return x.query('A > 5')

def ev(x):
    return x[x.eval('A > 5')]

def make_df(n):
    df = pd.DataFrame(np.random.randint(10, size=n), columns=['A'])
    return df


perfplot.show(
    setup=make_df,
    kernels=[ne, lc, lcx, be, bex, q, ev],
    n_range=[2**k for k in range(2, 25)],
    logx=True,
    logy=True,
    equality_check=False,  
    xlabel='len(df)')

使用.loc function 不會影響be函數的結果，直到 10^6 行，使用 te column .values被認為是最快的選擇。 query方法是最慢的。

這里只是 loc 和 be，以查看重疊。

pandas dataframe：loc 與查詢性能

問題描述

2 個解決方案

解決方案1
25 已采納 2018-04-20 08:27:50

解決方案2
4 2022-05-16 15:53:44

pandas dataframe：loc 與查詢性能

問題描述

2 個解決方案

解決方案1 25 已采納 2018-04-20 08:27:50

解決方案2 4 2022-05-16 15:53:44

解決方案1
25 已采納 2018-04-20 08:27:50

解決方案2
4 2022-05-16 15:53:44