繁体   English   中英

有什么方法可以在熊猫中正确合并两个具有不同暗淡的时间序列?

[英]Any way to correctly merge two time series with different dims in pandas?

我打算在熊猫中加入两个不同维度的时间序列。 第一个时间序列是关于covid19每日病例数据,而第二个时间序列是食品加工厂的每日切割统计,然后我想通过其公共列将合并的数据框与另一个数据连接起来。 首先,我想按日期加入他们的特定规范。 在covid案例时间序列中,数据是基于县级记录的,而在日切时间序列中,有日切统计数据,可以是每个县的平均日切时间序列,也可以是均匀分布的。 为了使加入这两个时间序列更合乎逻辑,我做了一些聚合并尝试加入,但它没有按我预期的那样工作。 任何人都可以建议在熊猫中实现这一点的可能方法吗? 任何的想法?

当前尝试和可重复数据

以下是gist 中的 covid 时间序列数据来自 NYT covid19 数据和来自食品加工机构的每日切割时间序列 这是我目前的尝试:

import pandas as pd

df1= pd.read_csv("us_covid_by_counties.csv")
df1 = df1.drop(columns=['Unnamed: 0'], inplace=True) 

df2= pd.read_csv("daily_cut.csv")
df2 = df2.drop(columns=['Unnamed: 0'], inplace=True)

## process and aggregate covid time series
ctyList = list(df1['county'].unique())
df1_new= {}
for c in ctyList:
    cty_df = df1[df1['county']==c]
    cty_df['new_cases'] = cty_df['cases'].diff()
    cty_df['new_deaths'] = cty_df['deaths'].diff()
    df1_new[c] = cty_df

df1_new = pd.DataFrame.from_dict(df1_new, orient='index')

然后,我尝试以这种方式合并它们:

df_merged = pd.concat([df1_new , df2]).sort_values('date').reset_index(drop=True)

更新

如果合并df1_newdf2可以做得正确,我想加入再次df_merged此数据county_state 有没有办法在熊猫中做到这一点?

但我很难正确加入这两个时间序列。 任何人都可以提出任何可能的想法来完成这项工作吗? 任何可能的想法?

要在评论中完成@XXavier 的建议:

确保正确导入日期:

df1 = pd.read_csv('data/us_covid_by_counties.csv', parse_dates=['date']).drop(columns=['Unnamed: 0'])
df2 = pd.read_csv('data/daily_cut.csv', parse_dates=['date']).drop(columns=['Unnamed: 0'])

添加所需的列:

df1['new_cases'] = df1.groupby(['county'])['cases'].diff()
df1['new_deaths'] = df1.groupby(['county'])['deaths'].diff()

创建合并的 df:

df_merged = pd.merge_asof(df1, df2, on="date", direction='nearest')

在您最初的问题中,您提到了两个数据框。 在您的评论中,您提到了另一个数据框。 这是一个不同的问题吗? merge_asof适用于您的原始数据集。 请看下面

这是第二个数据框

在此处输入图片说明

这是将数据类型更改为日期时间

df1['date'] = pd.to_datetime(df1['date'])
df2['date'] = pd.to_datetime(df2['date'])

这是我得到的输出

在此处输入图片说明

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM