[英]Improving pandas performance dealing with subsets
希望大家在這艱難的時刻都過得很好。
我有一個問題,如果有人可以幫助我。
我有以下代碼是用 Pandas 完成的,用於測試 Dataframe 是否有足夠的數據來開始計算:
def testa_liga(dados,data,liga,minimo_jogos):
criterio = (dados["liga"] == liga) & (dados["data"] < data)
dados = dados[criterio]
dados = dados.sort_values(by=["data"],ascending=False)
quantidade = len(dados.index)
if quantidade >= minimo_jogos:
minimo = True
else:
minimo = False
return minimo
不僅如此,我還為許多其他驗證執行此類操作。
所以我的問題是:有沒有辦法讓它更快?
Pandas 變得如此緩慢,以至於我正在考慮使用列表來完成任務。
謝謝!
編輯:
我的數據框如下所示:
liga data home away p1 p2 oddh oddd odda
0 SP1 2007-11-03 Mallorca Valencia 0 2 2.65 3.32 2.85
..................
使用自定義函數來實現相同的計算和過濾。
這似乎是解決大型計算的一種更有效的方法。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.