[英]Any way to correctly merge two time series with different dims in pandas?
我打算在熊猫中加入两个不同维度的时间序列。 第一个时间序列是关于covid19每日病例数据,而第二个时间序列是食品加工厂的每日切割统计,然后我想通过其公共列将合并的数据框与另一个数据连接起来。 首先,我想按日期加入他们的特定规范。 在covid案例时间序列中,数据是基于县级记录的,而在日切时间序列中,有日切统计数据,可以是每个县的平均日切时间序列,也可以是均匀分布的。 为了使加入这两个时间序列更合乎逻辑,我做了一些聚合并尝试加入,但它没有按我预期的那样工作。 任何人都可以建议在熊猫中实现这一点的可能方法吗? 任何的想法?
当前尝试和可重复数据
以下是gist 中的 covid 时间序列数据来自 NYT covid19 数据和来自食品加工机构的每日切割时间序列。 这是我目前的尝试:
import pandas as pd
df1= pd.read_csv("us_covid_by_counties.csv")
df1 = df1.drop(columns=['Unnamed: 0'], inplace=True)
df2= pd.read_csv("daily_cut.csv")
df2 = df2.drop(columns=['Unnamed: 0'], inplace=True)
## process and aggregate covid time series
ctyList = list(df1['county'].unique())
df1_new= {}
for c in ctyList:
cty_df = df1[df1['county']==c]
cty_df['new_cases'] = cty_df['cases'].diff()
cty_df['new_deaths'] = cty_df['deaths'].diff()
df1_new[c] = cty_df
df1_new = pd.DataFrame.from_dict(df1_new, orient='index')
然后,我尝试以这种方式合并它们:
df_merged = pd.concat([df1_new , df2]).sort_values('date').reset_index(drop=True)
更新:
如果合并df1_new
和df2
可以做得正确,我想加入再次df_merged
与此数据由county_state
。 有没有办法在熊猫中做到这一点?
但我很难正确加入这两个时间序列。 任何人都可以提出任何可能的想法来完成这项工作吗? 任何可能的想法?
要在评论中完成@XXavier 的建议:
确保正确导入日期:
df1 = pd.read_csv('data/us_covid_by_counties.csv', parse_dates=['date']).drop(columns=['Unnamed: 0'])
df2 = pd.read_csv('data/daily_cut.csv', parse_dates=['date']).drop(columns=['Unnamed: 0'])
添加所需的列:
df1['new_cases'] = df1.groupby(['county'])['cases'].diff()
df1['new_deaths'] = df1.groupby(['county'])['deaths'].diff()
创建合并的 df:
df_merged = pd.merge_asof(df1, df2, on="date", direction='nearest')
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.