是否有 function 来获取 pandas dataframe 时间序列上两个值之间的差异？

Question

我在NYT covid 数据集上闲逛，该数据集每天都有每个县的 covid 病例总数。

我想找出每天之间的案例差异，所以理论上我可以获得每天的新案例数量而不是总案例数。 采用滚动平均值，或使用平均值/总和/等每 2 天重新采样都可以正常工作。 只是减去这让我很头疼。

尝试过的方法：

df.resample('2d').diff()
- 'DatetimeIndexResampler' object 没有属性 'diff'
df.resample('1d').agg(np.subtract)
- ufunc() 缺少 2 个必需位置参数中的 1 个
df.rolling(2).diff()
- 'Rolling' object 没有属性 'diff'
df.rolling('2').agg(np.subtract)
- ufunc() 缺少 2 个必需位置参数中的 1 个

样本数据：

pd.DataFrame(data={'state':['Alabama','Alabama','Alabama','Alabama','Alabama'],
               'date':[dt.date(2020,3,13),dt.date(2020,3,14),dt.date(2020,3,15),dt.date(2020,3,16),dt.date(2020,3,17)],
               'covid_cases':[1.2,2.0,2.9,3.6,3.9]
              })

所需样本 output：

pd.DataFrame(data={'state':['Alabama','Alabama','Alabama','Alabama','Alabama'],
               'date':[dt.date(2020,3,13),dt.date(2020,3,14),dt.date(2020,3,15),dt.date(2020,3,16),dt.date(2020,3,17)],
               'new_covid_cases':[np.nan,0.8,0.9,0.7,0.3]
              })

从原始 NYT 数据集重新创建示例数据：

df = pd.read_csv('https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-counties.csv',parse_dates=['date'])
df.groupby(['state','date'])[['cases']].mean().reset_index()

任何帮助将不胜感激。 想学习如何手动/通过 function 执行此操作，而不是查找“新案例”数据集，因为我将在不久的将来大量使用时间序列。

Answer 1

让我们试试这段完整的代码：

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-counties.csv')

df['date'] = pd.to_datetime(df['date'])

df_daily_state = df.groupby(['date','state'])['cases'].sum().unstack()

daily_new_cases_AL = df_daily_state.diff()['Alabama']

ax = daily_new_cases_AL.iloc[-30:].plot.bar(title='Last 30 days Alabama New Cases')

Output：

细节：

使用原始 URL 从 NYTimes github 下载历史案例记录
将“日期”列的数据类型转换为日期时间数据类型
Groupby 'date' 和 'state' 列对 'cases' 求和并拆开索引的 state 级别以获得行的日期和列的状态。
按列取差和 select 只有阿拉巴马列
Plot 最后30天

Answer 2

diff function 是正确的，但是如果您查看错误消息：

'DatetimeIndexResampler' object has no attribute 'diff'

在您第一次尝试的方法中，这是因为 diff 是一个 function 可用于 DataFrames，而不是 Resamplers，因此通过指定您要如何对其进行重新采样将其变回 DataFrame。

如果您有每天的 COVID 病例总数并想将其重新采样为 2 天，您可能只想保留这两天的最新更新，在这种情况下，类似于df.resample('2d').last().diff()应该有效。

是否有 function 来获取 pandas dataframe 时间序列上两个值之间的差异？

问题描述

2 个解决方案

解决方案1
3 2020-08-19 14:22:18

细节：

解决方案2
2 已采纳 2020-08-19 13:54:20

是否有 function 来获取 pandas dataframe 时间序列上两个值之间的差异？

问题描述

2 个解决方案

解决方案1 3 2020-08-19 14:22:18

细节：

解决方案2 2 已采纳 2020-08-19 13:54:20

解决方案1
3 2020-08-19 14:22:18

解决方案2
2 已采纳 2020-08-19 13:54:20