熊貓分組滾動平均值與自定義窗口大小

Question

問題定義：

對於Pandas DataFrame，我試圖通過滾動均值進行分組，並在相對於日期時間索引的每一行上指定可更改的窗口大小。

例：

對於以下每周數據df ：

| week_start_date | material | location | quantity | window_size |
|-----------------|----------|----------|----------|-------------|
| 2019-01-28      | C        | A        | 870      | 1           |
| 2019-02-04      | C        | A        | 920      | 3           |
| 2019-02-18      | C        | A        | 120      | 1           |
| 2019-02-25      | C        | A        | 120      | 2           |
| 2019-03-04      | C        | A        | 120      | 1           |
| 2018-12-31      | D        | A        | 1200     | 8           |
| 2019-01-21      | D        | A        | 720      | 8           |
| 2019-01-28      | D        | A        | 480      | 8           |
| 2019-02-04      | D        | A        | 600      | 8           |
| 2019-02-11      | D        | A        | 720      | 8           |
| 2019-02-18      | D        | A        | 80       | 8           |
| 2019-02-25      | D        | A        | 600      | 8           |
| 2019-03-04      | D        | A        | 1200     | 8           |
| 2019-01-14      | E        | B        | 150      | 1           |
| 2019-01-28      | E        | B        | 1416     | 1           |
| 2019-02-04      | F        | B        | 1164     | 1           |
| 2019-01-28      | G        | B        | 11520    | 8           |

窗口需要相對於week_start_date設置的實際日期，而不是像整數索引一樣對待。

需要根據material和location進行分組。

滾動平均值用於列quantity 。

窗口大小需要根據window_size列中的值進行更改。 該值隨時間變化-表示需要匯總數量的時間倒退的周數。

當某行不可用時，均值應假定值為0，即：當某周日期的行不可用時， mean(null, null, null, 1000) = 1000但實際上應為：mean（0， 0,0,1000）= 250但是-這僅應在測量到第一個觀測值之后才適用。

固定的窗口，相對於日期列：

我可以使用以下方法獲得8周（56天）的靜態窗口：

df.set_index('week_start_date').groupby(['material', 'location'])['quantity'].rolling('56D', min_periods=1).mean()

我已經探索了使用擴展的方法，但沒有成功。

如何相對於讀取的每一行設置窗口大小？

樣本數據：

# Example Data
df = pd.DataFrame({'week_start_date': ['2019-01-28','2019-02-04','2019-02-18','2019-02-25','2019-03-04','2018-12-31','2019-01-21','2019-01-28','2019-02-04','2019-02-11','2019-02-18','2019-02-25','2019-03-04','2019-01-14','2019-01-28','2019-02-04','2019-01-28'],
'material': ['C','C','C','C','C','D','D','D','D','D','D','D','D','E','E','F','G'],
'location': ['A','A','A','A','A','A','A','A','A','A','A','A','A','B','B','B','B'],
'quantity': ['870','920','120','120','120','1200','720','480','600','720','80','600','1200','150','1416','1164','11520'],
'min_of_pdt_or_8_weeks': ['1','3','1','2','1','8','8','8','8','8','8','8','8','1','3','1','8']})
# Fix formats
df['week_start_date'] = pd.to_datetime(df['week_start_date'])
df['actual_week_qty'] = df['quantity'].astype(float)

預期結果：

| material | location | week_start_date | quantity | 
| C        | A        | 2019-01-28      | 870      | 
| C        | A        | 2019-04-02      | 306.6667 | 
| C        | A        | 2019-02-18      | 520      | 
| C        | A        | 2019-02-25      | 386.6667 | 
| D        | A        | 2018-12-31      | 1200     | 
| D        | A        | 2019-01-21      | 960      | 
| D        | A        | 2019-01-28      | 800      | 
| D        | A        | 2019-04-02      | 600      | 
| D        | A        | 2019-11-02      | 720      | 
| D        | A        | 2019-02-18      | 400      | 
| D        | A        | 2019-02-25      | 466.6667 | 
| D        | A        | 2019-04-03      | 650      | 
| E        | B        | 2019-01-14      | 150      | 
| E        | B        | 2019-01-28      | 783      | 
| F        | B        | 2019-04-02      | 1164     | 
| G        | B        | 2019-01-28      | 11520    |

Answer 1

您可能會這樣做的一個簡單方法是進行8次計算（假設這是有界的！）並合並結果：

In [11]: d = {w: df.set_index('week_start_date')
                   .groupby(['material', 'location'])['quantity']
                   .rolling(f'{7*w}D', min_periods=1)
                   .mean()
                   .reset_index(name="mean")
                   .assign(window_size=w)
              for w in range(1, 9)}

那么您可以將這些DataFrame合並在一起並與原始DataFrame合並，因為我們在左右兩側都有window_size列，該列位於其內部。

In [12]: pd.concat(d.values()).merge(df, how="inner")
Out[12]:
   material location week_start_date          mean  window_size  quantity
0         C        A      2019-01-28    870.000000            1     870.0
1         C        A      2019-02-18    520.000000            1     120.0
2         C        A      2019-04-03    320.000000            1     120.0
3         E        B      2019-01-14    150.000000            1     150.0
4         F        B      2019-04-02   1164.000000            1    1164.0
5         C        A      2019-02-25    386.666667            2     120.0
6         C        A      2019-04-02    920.000000            3     920.0
7         E        B      2019-01-28    783.000000            3    1416.0
8         D        A      2018-12-31   1200.000000            8    1200.0
9         D        A      2019-01-21    960.000000            8     720.0
10        D        A      2019-01-28    800.000000            8     480.0
11        D        A      2019-04-02    600.000000            8     600.0
12        D        A      2019-11-02    720.000000            8     720.0
13        D        A      2019-02-18    400.000000            8      80.0
14        D        A      2019-02-25    466.666667            8     600.0
15        D        A      2019-04-03    650.000000            8    1200.0
16        G        B      2019-01-28  11520.000000            8   11520.0

注意：假設您已將window_size的fillna設置為8：

df.window_size = df.window_size.replace('NaN', 8).astype(int)  # in your example

此外，您還想確保將格式傳遞給to_datetime以確保您不會產生歧義，熊貓也許可以在此方面做得很好……但是我不會依靠它（顯式使用format='%d/%m/%Y ）。 您希望在讀完日期后就擺脫奇怪的日期格式，也可以將其傳遞給read_csv（dayfirst = True）和朋友。

我並不完全相信這就是您想要的，因為您輸入的df和預期值之間存在差異（例如，預期值中沒有GB ...）。

無論如何，我懷疑只有一種拍攝方法可以做到這一點，但這將取決於周/材質/位置的稀疏性（如果密密麻麻的話，它會容易得多；如果稀疏，這可能是最好的選擇）。 ..
現在我考慮一下，您可以完全在材質/位置subDataFrame上執行此操作，是否可以將此問題簡化為該DataFrame的函數（只是周+忽略材質/位置的值），或者應用速度太慢？

熊貓分組滾動平均值與自定義窗口大小

問題描述

問題定義：

例：

固定的窗口，相對於日期列：

樣本數據：

預期結果：

1 個解決方案

解決方案1
0 已采納 2019-04-19 04:36:01

熊貓分組滾動平均值與自定義窗口大小

問題描述

問題定義：

例：

固定的窗口，相對於日期列：

樣本數據：

預期結果：

1 個解決方案

解決方案1 0 已采納 2019-04-19 04:36:01

解決方案1
0 已采納 2019-04-19 04:36:01