[英]pandas dataframe: loc vs query performance
我在 python 中有 2 個數據幀,我想查詢數據。
DF1:4M 記錄 x 3 列。 查詢 function seams 比 loc function 更有效率。
DF2:2K 記錄 x 6 列。 loc function 接縫比查詢 function 更有效。
兩個查詢都返回一條記錄。 模擬是通過在循環中運行相同的操作 10K 次來完成的。
運行 python 2.7 和 pandas 0.16.0
有什么提高查詢速度的建議嗎?
為了提高性能,可以使用numexpr
:
import numexpr
np.random.seed(125)
N = 40000000
df = pd.DataFrame({'A':np.random.randint(10, size=N)})
def ne(df):
x = df.A.values
return df[numexpr.evaluate('(x > 5)')]
print (ne(df))
In [138]: %timeit (ne(df))
1 loop, best of 3: 494 ms per loop
In [139]: %timeit df[df.A > 5]
1 loop, best of 3: 536 ms per loop
In [140]: %timeit df.query('A > 5')
1 loop, best of 3: 781 ms per loop
In [141]: %timeit df[df.eval('A > 5')]
1 loop, best of 3: 770 ms per loop
import numexpr
np.random.seed(125)
def ne(x):
x = x.A.values
return x[numexpr.evaluate('(x > 5)')]
def be(x):
return x[x.A > 5]
def q(x):
return x.query('A > 5')
def ev(x):
return x[x.eval('A > 5')]
def make_df(n):
df = pd.DataFrame(np.random.randint(10, size=n), columns=['A'])
return df
perfplot.show(
setup=make_df,
kernels=[ne, be, q, ev],
n_range=[2**k for k in range(2, 25)],
logx=True,
logy=True,
equality_check=False,
xlabel='len(df)')
編輯:
圖形具有修飾ne
和改進的be
:
def ne(x):
return x[numexpr.evaluate('(x > 5)')]
def bex(x):
return x[x.A.values > 5]
我添加了 the.loc function 並使用相同的代碼@jezrael 用於測試python 3.9.5
和pandas 1.2.5
中的性能。
import numpy as np
import pandas as pd
import numexpr
import perfplot
np.random.seed(125)
def ne(x):
return x[numexpr.evaluate('(x > 5)')]
def bex(x):
return x[x.A.values > 5]
def be(x):
return x[x.A > 5]
def lc(x):
return x.loc[x.A > 5]
def lcx(x):
return x.loc[x.A.values > 5]
def q(x):
return x.query('A > 5')
def ev(x):
return x[x.eval('A > 5')]
def make_df(n):
df = pd.DataFrame(np.random.randint(10, size=n), columns=['A'])
return df
perfplot.show(
setup=make_df,
kernels=[ne, lc, lcx, be, bex, q, ev],
n_range=[2**k for k in range(2, 25)],
logx=True,
logy=True,
equality_check=False,
xlabel='len(df)')
使用.loc
function 不會影響be
函數的結果,直到 10^6 行,使用 te column .values
被認為是最快的選擇。 query
方法是最慢的。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.