簡體   English   中英

提高處理子集的熊貓性能

[英]Improving pandas performance dealing with subsets

希望大家在這艱難的時刻都過得很好。

我有一個問題,如果有人可以幫助我。

我有以下代碼是用 Pandas 完成的,用於測試 Dataframe 是否有足夠的數據來開始計算:

def testa_liga(dados,data,liga,minimo_jogos):

    criterio = (dados["liga"] == liga) & (dados["data"] < data)
    dados = dados[criterio]
    dados = dados.sort_values(by=["data"],ascending=False)
    quantidade = len(dados.index)

    if quantidade >= minimo_jogos:

        minimo = True

    else:

        minimo = False

    return minimo

不僅如此,我還為許多其他驗證執行此類操作。

所以我的問題是:有沒有辦法讓它更快?

Pandas 變得如此緩慢,以至於我正在考慮使用列表來完成任務。

謝謝!

編輯:

我的數據框如下所示:

   liga       data         home      away    p1  p2  oddh  oddd   odda  
0  SP1     2007-11-03     Mallorca  Valencia  0   2  2.65  3.32   2.85 
.................. 

使用自定義函數來實現相同的計算和過濾。

這似乎是解決大型計算的一種更有效的方法。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM