滾動平均值與時間偏移熊貓

Question

我在熊貓中有一個時間戳和值的數據集。 在大約一年的總時間跨度內，時間戳之間的間隔約為 12 秒，但有時會丟失點（即，時間序列是不規則的，因此我無法使用固定的窗口大小）。

我想計算 1 分鍾間隔內值的滾動平均值，但我沒有得到預期的行為。 我在這里發現了一個類似的問題，但這是使用 sum 和 pre-pandas 0.19.0。 我正在使用 Pandas 0.23.4。

樣本數據

Time, X
2018-02-02 21:27:00,    75.4356
2018-02-02 21:27:12,    78.29821
2018-02-02 21:27:24,    73.098345
2018-02-02 21:27:36,    78.3331
2018-02-02 21:28:00,    79.111

請注意，缺少2018-02-02 21:27:48 。

對於滾動總和，我可以只用 0 填充缺失值，但對於平均值，我不希望將缺失點計為實際數據點（例如，我希望窗口為總和（給定間隔內的數據點） ) / 間隔中的數據點數)。

我想在不同的時間段（即 1 分鍾、5 分鍾、15 分鍾、1 小時等）執行此操作。

我最接近獲得實際值的是：

代碼

df['rolling_avg']=df.rolling('1T',on='Time').X.mean()

我的理解是這將是 1 分鍾的滾動平均值。

但是，我不確定如何解釋輸出。 我本來希望在前 1+1 分鍾出現 NaN，因為沒有什么可作為滾動平均值的基礎，但我有值。

輸出

    Time                X         rolling_avg
0   2018-02-02 21:27:00 75.4356   75.435600
1   2018-02-02 21:27:12 78.29821  76.866905
2   2018-02-02 21:27:24 73.098345 75.610718
3   2018-02-02 21:27:36 78.3331   76.291314
4   2018-02-02 21:28:00 79.111    77.210164

基本上，在這個輸出中， df[1].rolling_avg是(Value[0]+Value[1])/2 ，盡管間隔是 12 秒，而不是 1 分鍾。

有沒有辦法做我想做的事情，或者我是否需要編寫一個 for 循環來手動執行此操作？

Answer 1

我認為問題可能出在您的數據中。 然后也許我沒有解決問題。 使用您的數據時，我遇到了同樣的錯誤，但是當我嘗試執行此操作時，它可以正常工作。

import  pandas as pd
import numpy as np
import datetime

time = pd.date_range(start='1/1/2018', end='1/02/2018', freq='12s')
time

DatetimeIndex(['2018-01-01 00:00:00', '2018-01-01 00:00:12',
               '2018-01-01 00:00:24', '2018-01-01 00:00:36',
               '2018-01-01 00:00:48', '2018-01-01 00:01:00',
               '2018-01-01 00:01:12', '2018-01-01 00:01:24',
               '2018-01-01 00:01:36', '2018-01-01 00:01:48',
               ...
               '2018-01-01 23:58:12', '2018-01-01 23:58:24',
               '2018-01-01 23:58:36', '2018-01-01 23:58:48',
               '2018-01-01 23:59:00', '2018-01-01 23:59:12',
               '2018-01-01 23:59:24', '2018-01-01 23:59:36',
               '2018-01-01 23:59:48', '2018-01-02 00:00:00'],
              dtype='datetime64[ns]', length=7201, freq='12S')

B = np.random.randint(0, 9, 7201)

df = pd.DataFrame(B, time)
df['rolling_avg']=df.rolling('60s', min_periods=3).mean()
df.head(20)

    0                rolling_avg
2018-01-01 00:00:00 5   NaN
2018-01-01 00:00:12 0   NaN
2018-01-01 00:00:24 1   2.0
2018-01-01 00:00:36 0   1.5
2018-01-01 00:00:48 6   2.4
2018-01-01 00:01:00 7   2.8
2018-01-01 00:01:12 6   4.0
2018-01-01 00:01:24 3   4.4
2018-01-01 00:01:36 7   5.8
2018-01-01 00:01:48 6   5.8
2018-01-01 00:02:00 2   4.8
2018-01-01 00:02:12 6   4.8
2018-01-01 00:02:24 1   4.4
2018-01-01 00:02:36 0   3.0
2018-01-01 00:02:48 8   3.4
2018-01-01 00:03:00 2   3.4
2018-01-01 00:03:12 5   3.2
2018-01-01 00:03:24 8   4.6
2018-01-01 00:03:36 4   5.4
2018-01-01 00:03:48 1   4.0

Answer 2

你說：但是，我不確定如何解釋輸出。 我本來希望在前 1+1 分鍾出現 NaN，因為沒有什么可作為滾動平均值的基礎，但我有值。

方法.rolling()考慮索引在 1 分鍾間隔內的所有值。 間隔是（默認情況下，但您可以更改此設置；使用可選參數closed ）向左打開並向右關閉。 它的右端是當前索引（您也可以更改它；使用可選參數center ）。
在您的情況下，第一個這樣的間隔是 ] 2018-02-02 21:26:00 , 2018-02-02 21:27:00 ]，其中僅包含索引2018-02-02 21:27:00 。 因此，平均值只計算一個值。

我希望這對你來說很有意義。

滾動平均值與時間偏移熊貓

問題描述

2 個解決方案

解決方案1
0 2019-02-13 00:48:29

解決方案2
0 2021-12-21 18:57:03

滾動平均值與時間偏移熊貓

問題描述

2 個解決方案

解決方案1 0 2019-02-13 00:48:29

解決方案2 0 2021-12-21 18:57:03

解決方案1
0 2019-02-13 00:48:29

解決方案2
0 2021-12-21 18:57:03