如何在 Pandas 的時間序列中檢測間隔和連續周期

Question

我有一個按日期索引的熊貓數據框。 我想按期間選擇所有連續間隔，按期間選擇所有連續天數。 我該怎么做？

沒有列但有日期索引的數據框示例：

In [29]: import pandas as pd

In [30]: dates = pd.to_datetime(['2016-09-19 10:23:03', '2016-08-03 10:53:39','2016-09-05 11:11:30', '2016-09-05 11:10:46','2016-09-05 10:53:39'])

In [31]: ts = pd.DataFrame(index=dates)

如您所見， 2016-08-03 和 2016-09-19 之間存在差距。 我如何檢測這些以便我可以創建描述性統計數據，即 40 個間隙，中間間隙持續時間為“x”等。此外，我可以看到2016-09-05 和 2016-09-06 是兩天范圍。 我如何檢測這些並打印描述性統計數據？

理想情況下，結果將在每種情況下作為另一個 Dataframe 返回，因為我想使用 Dataframe 中的其他列進行分組。

Answer 1

Pandas 1.0.1 版有一個內置方法DataFrame.diff() ，您可以使用它來完成此操作。 一個好處是您可以使用像mean()這樣的 Pandas 系列函數來快速計算gaps系列對象的匯總統計信息

from datetime import datetime, timedelta
import pandas as pd

# Construct dummy dataframe
dates = pd.to_datetime([
    '2016-08-03',
    '2016-08-04',
    '2016-08-05',
    '2016-08-17',
    '2016-09-05',
    '2016-09-06',
    '2016-09-07',
    '2016-09-19'])
df = pd.DataFrame(dates, columns=['date'])

# Take the diff of the first column (drop 1st row since it's undefined)
deltas = df['date'].diff()[1:]

# Filter diffs (here days > 1, but could be seconds, hours, etc)
gaps = deltas[deltas > timedelta(days=1)]

# Print results
print(f'{len(gaps)} gaps with average gap duration: {gaps.mean()}')
for i, g in gaps.iteritems():
    gap_start = df['date'][i - 1]
    print(f'Start: {datetime.strftime(gap_start, "%Y-%m-%d")} | '
          f'Duration: {str(g.to_pytimedelta())}')

Answer 2

這里有一些開始：

df = pd.DataFrame(np.ones(5),columns = ['ones'])
df.index = pd.DatetimeIndex(['2016-09-19 10:23:03', '2016-08-03 10:53:39', '2016-09-05 11:11:30', '2016-09-05 11:10:46', '2016-09-06 10:53:39'])
daily_rng = pd.date_range('2016-08-03 00:00:00', periods=48, freq='D')
daily_rng = daily_rng.append(df.index)
daily_rng = sorted(daily_rng)
df =  df.reindex(daily_rng).fillna(0)
df = df.astype(int)
df['ones'] = df.cumsum()

cumsum() 在“ones”上創建一個分組變量，在您提供的點對數據進行分區。 如果您打印 df 來表示電子表格，這將是有道理的：

print df.head()

                     ones
2016-08-03 00:00:00     0
2016-08-03 10:53:39     1
2016-08-04 00:00:00     1
2016-08-05 00:00:00     1
2016-08-06 00:00:00     1

print df.tail()
                     ones
2016-09-16 00:00:00     4
2016-09-17 00:00:00     4
2016-09-18 00:00:00     4
2016-09-19 00:00:00     4
2016-09-19 10:23:03     5

現在完成：

df = df.reset_index()
df = df.groupby(['ones']).aggregate({'ones':{'gaps':'count'},'index':{'first_spotted':'min'}})
df.columns = df.columns.droplevel()

這給出：

              first_time  gaps
ones                          
0    2016-08-03 00:00:00     1
1    2016-08-03 10:53:39    34
2    2016-09-05 11:10:46     1
3    2016-09-05 11:11:30     2
4    2016-09-06 10:53:39    14
5    2016-09-19 10:23:03     1

如何在 Pandas 的時間序列中檢測間隔和連續周期

問題描述

2 個解決方案

解決方案1
8 2020-02-17 02:57:37

解決方案2
4 2016-10-19 10:54:31

如何在 Pandas 的時間序列中檢測間隔和連續周期

問題描述

2 個解決方案

解決方案1 8 2020-02-17 02:57:37

解決方案2 4 2016-10-19 10:54:31

解決方案1
8 2020-02-17 02:57:37

解決方案2
4 2016-10-19 10:54:31