如何使用 Pandas MultiIndex DataFrame 中的先前值進行計算？

Question

我有以下 MultiIndex 數據框。

                         Close     ATR     
Date          Symbol     
1990-01-01    A          24        2       
1990-01-01    B          72        7      
1990-01-01    C          40        3.4 

1990-01-02    A          21        1.5     
1990-01-02    B          65        6        
1990-01-02    C          45        4.2   

1990-01-03    A          19        2.5    
1990-01-03    B          70        6.3       
1990-01-03    C          51        5

我想計算三列：

Shares = 前一天的Equity * 0.02 / ATR ，四舍五入為整數
Profit = Shares * Close
Equity = 前一天的Equity + 每個Symbol的Profit總和

Equity的初始值為 10,000。

預期的輸出是：

                         Close     ATR     Shares     Profit     Equity
Date          Symbol     
1990-01-01    A          24        2       0          0          10000
1990-01-01    B          72        7       0          0          10000
1990-01-01    C          40        3.4     0          0          10000

1990-01-02    A          21        1.5     133        2793       17053
1990-01-02    B          65        6       33         2145       17053
1990-01-02    C          45        4.2     47         2115       17053

1990-01-03    A          19        2.5     136        2584       26885
1990-01-03    B          70        6.3     54         3780       26885
1990-01-03    C          51        5       68         3468       26885

我想我需要一個for loop或一個應用於每一行的function 。 有了這些，我有兩個問題。 一個是我不確定如何在MultiIndex數據幀的情況下為此邏輯創建for loop 。 第二個是我的數據框非常大（大約 1000 萬行），所以我不確定for loop是否是一個好主意。 但是我該如何創建這些列呢？

Answer 1

這個解決方案肯定可以清理，但會產生你想要的輸出。 我已經在示例數據框的構建中包含了您的初始條件：

import pandas as pd
import numpy as np

df = pd.DataFrame({'Date': ['1990-01-01','1990-01-01','1990-01-01','1990-01-02','1990-01-02','1990-01-02','1990-01-03','1990-01-03','1990-01-03'],
    'Symbol': ['A','B','C','A','B','C','A','B','C'],
    'Close': [24, 72, 40, 21, 65, 45, 19, 70, 51],
    'ATR': [2, 7, 3.4, 1.5, 6, 4.2, 2.5, 6.3, 5],
    'Shares': [0, 0, 0, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan],
    'Profit': [0, 0, 0, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan]})

給出：

         Date Symbol  Close  ATR  Shares  Profit
0  1990-01-01      A     24  2.0     0.0     0.0
1  1990-01-01      B     72  7.0     0.0     0.0
2  1990-01-01      C     40  3.4     0.0     0.0
3  1990-01-02      A     21  1.5     NaN     NaN
4  1990-01-02      B     65  6.0     NaN     NaN
5  1990-01-02      C     45  4.2     NaN     NaN
6  1990-01-03      A     19  2.5     NaN     NaN
7  1990-01-03      B     70  6.3     NaN     NaN
8  1990-01-03      C     51  5.0     NaN     NaN

然后使用groupby()和apply()並在全球范圍內跟蹤您的Equity 。 我花了一秒鍾才意識到這個問題的本質要求您分別對兩個單獨的列（ Symbol和Date ）進行分組：

start = 10000
Equity = 10000

def calcs(x):

    global Equity

    if x.index[0]==0: return x #Skip first group

    x['Shares'] = np.floor(Equity*0.02/x['ATR'])
    x['Profit'] = x['Shares']*x['Close']
    Equity += x['Profit'].sum()

    return x

df = df.groupby('Date').apply(calcs)
df['Equity'] = df.groupby('Date')['Profit'].transform('sum')
df['Equity'] = df.groupby('Symbol')['Equity'].cumsum()+start

這產生：

         Date Symbol  Close  ATR  Shares  Profit   Equity
0  1990-01-01      A     24  2.0     0.0     0.0  10000.0
1  1990-01-01      B     72  7.0     0.0     0.0  10000.0
2  1990-01-01      C     40  3.4     0.0     0.0  10000.0
3  1990-01-02      A     21  1.5   133.0  2793.0  17053.0
4  1990-01-02      B     65  6.0    33.0  2145.0  17053.0
5  1990-01-02      C     45  4.2    47.0  2115.0  17053.0
6  1990-01-03      A     19  2.5   136.0  2584.0  26885.0
7  1990-01-03      B     70  6.3    54.0  3780.0  26885.0
8  1990-01-03      C     51  5.0    68.0  3468.0  26885.0

Answer 2

你可以嘗試使用 shift 和 groupby 嗎？ 一旦獲得前一行的值，所有列操作都是直接的。

table2['previous'] = table2['close'].groupby('symbol').shift(1)

table2

date    symbol      close   atr     previous

1990-01-01  A   24  2   NaN
            B   72  7   NaN
            C   40  3.4     NaN
1990-01-02  A   21  1.5     24
            B   65  6   72
            C   45  4.2     40
1990-01-03  A   19  2.5     21
            B   70  6.3     65
            C   51  5   45

如何使用 Pandas MultiIndex DataFrame 中的先前值進行計算？

問題描述

2 個解決方案

解決方案1
1 已采納 2018-11-05 17:27:14

解決方案2
0 2018-11-05 16:53:35

如何使用 Pandas MultiIndex DataFrame 中的先前值進行計算？

問題描述

2 個解決方案

解決方案1 1 已采納 2018-11-05 17:27:14

解決方案2 0 2018-11-05 16:53:35

解決方案1
1 已采納 2018-11-05 17:27:14

解決方案2
0 2018-11-05 16:53:35