有什么方法可以在熊猫中正确合并两个具有不同暗淡的时间序列？

Question

我打算在熊猫中加入两个不同维度的时间序列。 第一个时间序列是关于covid19每日病例数据，而第二个时间序列是食品加工厂的每日切割统计，然后我想通过其公共列将合并的数据框与另一个数据连接起来。 首先，我想按日期加入他们的特定规范。 在covid案例时间序列中，数据是基于县级记录的，而在日切时间序列中，有日切统计数据，可以是每个县的平均日切时间序列，也可以是均匀分布的。 为了使加入这两个时间序列更合乎逻辑，我做了一些聚合并尝试加入，但它没有按我预期的那样工作。 任何人都可以建议在熊猫中实现这一点的可能方法吗？ 任何的想法？

当前尝试和可重复数据

以下是gist 中的 covid 时间序列数据来自 NYT covid19 数据和来自食品加工机构的每日切割时间序列。 这是我目前的尝试：

import pandas as pd

df1= pd.read_csv("us_covid_by_counties.csv")
df1 = df1.drop(columns=['Unnamed: 0'], inplace=True) 

df2= pd.read_csv("daily_cut.csv")
df2 = df2.drop(columns=['Unnamed: 0'], inplace=True)

## process and aggregate covid time series
ctyList = list(df1['county'].unique())
df1_new= {}
for c in ctyList:
    cty_df = df1[df1['county']==c]
    cty_df['new_cases'] = cty_df['cases'].diff()
    cty_df['new_deaths'] = cty_df['deaths'].diff()
    df1_new[c] = cty_df

df1_new = pd.DataFrame.from_dict(df1_new, orient='index')

然后，我尝试以这种方式合并它们：

df_merged = pd.concat([df1_new , df2]).sort_values('date').reset_index(drop=True)

更新：

如果合并df1_new和df2可以做得正确，我想加入再次df_merged与此数据由county_state 。 有没有办法在熊猫中做到这一点？

但我很难正确加入这两个时间序列。 任何人都可以提出任何可能的想法来完成这项工作吗？ 任何可能的想法？

Answer 1

要在评论中完成@XXavier 的建议：

确保正确导入日期：

df1 = pd.read_csv('data/us_covid_by_counties.csv', parse_dates=['date']).drop(columns=['Unnamed: 0'])
df2 = pd.read_csv('data/daily_cut.csv', parse_dates=['date']).drop(columns=['Unnamed: 0'])

添加所需的列：

df1['new_cases'] = df1.groupby(['county'])['cases'].diff()
df1['new_deaths'] = df1.groupby(['county'])['deaths'].diff()

创建合并的 df：

df_merged = pd.merge_asof(df1, df2, on="date", direction='nearest')

Answer 2

在您最初的问题中，您提到了两个数据框。 在您的评论中，您提到了另一个数据框。 这是一个不同的问题吗？ merge_asof适用于您的原始数据集。 请看下面

这是将数据类型更改为日期时间

df1['date'] = pd.to_datetime(df1['date'])
df2['date'] = pd.to_datetime(df2['date'])

这是我得到的输出

有什么方法可以在熊猫中正确合并两个具有不同暗淡的时间序列？

问题描述

2 个解决方案

解决方案1
1 2020-09-09 00:37:34

解决方案2
1 已采纳 2020-09-09 16:09:24

有什么方法可以在熊猫中正确合并两个具有不同暗淡的时间序列？

问题描述

2 个解决方案

解决方案1 1 2020-09-09 00:37:34

解决方案2 1 已采纳 2020-09-09 16:09:24

解决方案1
1 2020-09-09 00:37:34

解决方案2
1 已采纳 2020-09-09 16:09:24