熊貓：提高滾動窗口的速度（應用自定義功能）

Question

我正在使用此代碼使用滾動窗口在我的數據框上應用函數（ funcX ）。 主要問題是這個數據框（ data ）的大小非常大，我正在尋找一種更快的方法來完成這項任務。

import numpy as np

def funcX(x):
    x = np.sort(x)
    xd = np.delete(x, 25)
    med = np.median(xd)
    return (np.abs(x - med)).mean() + med

med_out = data.var1.rolling(window = 51, center = True).apply(funcX, raw = True)

使用此函數的唯一原因是計算出的中位數是刪除中間值后的中位數。 因此，在滾動窗口的末尾添加.median()有所不同。

Answer 1

為了有效，窗口算法必須鏈接兩個重疊窗口的結果。

在這里，使用： med0中位數， med中間的x \\ med0 ， xl元素在med之前， xg元素在med之后的有序元素中， funcX(x)可以看作：

<|x-med|> + med = [sum(xg) - sum(xl) - |med0-med|] / windowsize + med

因此，它想要維護一個緩沖區，它代表排序的當前窗口， sum(xg)和sum(xl) 。 使用Numba及時編譯，這里出現了非常好的性能。

首先是緩沖管理：

init對第一個窗口進行排序並計算左（ xls ）和右（ xgs ）和。

import numpy as np
import numba
windowsize = 51 #odd, >1
halfsize = windowsize//2

@numba.njit
def init(firstwindow):
    buffer = np.sort(firstwindow)
    xls = buffer[:halfsize].sum()
    xgs = buffer[-halfsize:].sum()   
    return buffer,xls,xgs

shift是線性部分。 它會更新緩沖區，並對其進行排序。 np.searchsorted計算O(log(windowsize))中插入和刪除的位置。 這是技術性的，因為xin<xout和xout<xin不是對稱的情況。

@numba.njit
def shift(buffer,xin,xout):
    i_in = np.searchsorted(buffer,xin) 
    i_out = np.searchsorted(buffer,xout)
    if xin <= xout :
        buffer[i_in+1:i_out+1] = buffer[i_in:i_out] 
        buffer[i_in] = xin                        
    else:
        buffer[i_out:i_in-1] = buffer[i_out+1:i_in]                      
        buffer[i_in-1] = xin
    return i_in, i_out

update更新緩沖區以及左右部分的總和。 這是技術性的，因為xin<xout和xout<xin不是對稱的情況。

@numba.njit
def update(buffer,xls,xgs,xin,xout):
    xl,x0,xg = buffer[halfsize-1:halfsize+2]
    i_in,i_out = shift(buffer,xin,xout)

    if i_out < halfsize:
        xls -= xout
        if i_in <= halfsize:
            xls += xin
        else:    
            xls += x0
    elif i_in < halfsize:
        xls += xin - xl

    if i_out > halfsize:
        xgs -= xout
        if i_in > halfsize:
            xgs += xin
        else:    
            xgs += x0
    elif i_in > halfsize+1:
        xgs += xin - xg

    return buffer, xls, xgs

func等效於緩沖區上的原始funcX 。 O(1) 。

@numba.njit       
def func(buffer,xls,xgs):
    med0 = buffer[halfsize]
    med  = (buffer[halfsize-1] + buffer[halfsize+1])/2
    if med0 > med:
        return (xgs-xls+med0-med) / windowsize + med
    else:               
        return (xgs-xls+med-med0) / windowsize + med

med是全球功能。 O(data.size * windowsize) 。

@numba.njit
def med(data):
    res = np.full_like(data, np.nan)
    state = init(data[:windowsize])
    res[halfsize] = func(*state)
    for i in range(windowsize, data.size):
        xin,xout = data[i], data[i - windowsize]
        state = update(*state, xin, xout)
        res[i-halfsize] = func(*state)
    return res

表現：

import pandas
data=pandas.DataFrame(np.random.rand(10**5))

%time res1=data[0].rolling(window = windowsize, center = True).apply(funcX, raw = True)
Wall time: 10.8 s

res2=med(data[0].values)

np.allclose((res1-res2)[halfsize:-halfsize],0)
Out[112]: True

%timeit res2=med(data[0].values)
40.4 ms ± 462 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

它的速度快〜250倍，窗口大小= 51.一小時變為15秒。

熊貓：提高滾動窗口的速度（應用自定義功能）

問題描述

1 個解決方案

解決方案1
5 已采納 2019-04-23 07:12:37

熊貓：提高滾動窗口的速度（應用自定義功能）

問題描述

1 個解決方案

解決方案1 5 已采納 2019-04-23 07:12:37

解決方案1
5 已采納 2019-04-23 07:12:37