将数据分成多个时间序列 R

Question

我有一张包含美国所有州的 excel 表。 我想从每个 state 中创建一个时间序列，并将数据频率设为每天（目前是按分钟）。 到目前为止，我所做的最多的是删除所有多余的列，但我很难想出一种有效的方法来每天制作数据并由 state 分隔，而无需手动操作。

我希望将 ggplot 与所有这些新的时间序列一起使用。 我尝试使用熔化 function 并收集 function 但两者都不起作用。

这是我的部分数据：

state 列从 1 到 51 并且日期不时重复，因为它的频率是每分钟。 我想最终为这些状态中的每一个创建一个时间序列，以便我可以并排分析它们。 有些州可能没有每天的数据记录，如何将这些日期自动填写为零？

Answer 1

欢迎来到 SO，樱桃。 将来，请提供可重现的示例，而不是数据框的图片。 function dput(your_df_here)可能有用。

这是我的示例数据，与您的不同：

df <- structure(list(STATE = c(1, 1, 1, 2, 2, 2), VETOTAL = c(2, 2, 3, 1, 1, 2), VEFORMS = c(2, 2, 3, 1, 1, 2), 
           PVHJNVL = c(0, 0, 0, 0, 0, 0), PEDS = c(0, 0, 0, 1, 0, 0), PERSONS = c(3, 2, 4, 1, 1, 2), 
           PERMVIT = c(3, 2, 4, 1, 1, 2), PERNOTMVI = c(0, 0, 0, 1, 0, 0), COUNTY = c(81, 55, 29, 55, 3, 85), 
           CITY = c(2340, 1280, 0, 2562, 0, 0), DAY = c(7, 23, 22, 7, 23, 22), MONTH = c(2, 1, 1, 2, 1, 1), 
           YEAR = c(2019, 2019, 2019, 2019, 2019, 2019), FATALS = c(1, 1, 1, 1, 0, 1), DRUNK_DR = c(1, 0, 0, 0, 1, 0)), 
       row.names = c(NA, -6L), class = "data.frame")

下面是如何在{tidyverse}的帮助下创建一个日期观察，按 State 和日期分组，然后总结一个总和。

library(tidyverse)
df %>% 
   mutate(date = as.Date(paste(YEAR, MONTH, DAY, sep = "-"))) %>% # create a date
   group_by(STATE, date) %>% # Group by State id and date
   summarise_at(.vars = vars(VETOTAL:PERNOTMVI, FATALS, DRUNK_DR), sum) ## Summarise a sum of those variables between VETOTAL and PERNOTMVI, plus FATALS and DRUNK_DR

结果：

# A tibble: 6 x 10
# Groups:   STATE [2]
  STATE date       VETOTAL VEFORMS PVHJNVL  PEDS PERSONS PERMVIT PERNOTMVI FATALS
  <dbl> <date>       <dbl>   <dbl>   <dbl> <dbl>   <dbl>   <dbl>     <dbl>  <dbl>
1     1 2019-01-22       3       3       0     0       4       4         0      1
2     1 2019-01-23       2       2       0     0       2       2         0      1
3     1 2019-02-07       2       2       0     0       3       3         0      1
4     2 2019-01-22       2       2       0     0       2       2         0      1
5     2 2019-01-23       1       1       0     0       1       1         0      0
6     2 2019-02-07       1       1       0     1       1       1         1      1

填补缺失的日期。

如果您想用 0 填充某个范围内缺失日期的值（即那些没有记录观察的日期），我们可以在{padr}的帮助下完成

library(padr)
    df %>% 
  mutate(date = as.Date(paste(YEAR, MONTH, DAY, sep = "-"))) %>% 
  group_by(STATE, date) %>% 
  summarise_at(.vars = vars(VETOTAL:PERNOTMVI, FATALS), sum) %>% 
  padr::pad(start_val = min(.$date), #This sets the start value as the earliest date present in the "date" variable 
            end_val = max(.$date)) %>%    #This sets the end value as the earliest date present in the "date" variable
  fill_by_value(value = 0)

结果：

# A tibble: 34 x 10
# Groups:   STATE [2]
   STATE date       VETOTAL VEFORMS PVHJNVL  PEDS PERSONS PERMVIT PERNOTMVI FATALS
   <dbl> <date>       <dbl>   <dbl>   <dbl> <dbl>   <dbl>   <dbl>     <dbl>  <dbl>
 1     1 2019-01-22       3       3       0     0       4       4         0      1
 2     1 2019-01-23       2       2       0     0       2       2         0      1
 3     1 2019-01-24       0       0       0     0       0       0         0      0
 4     1 2019-01-25       0       0       0     0       0       0         0      0
 5     1 2019-01-26       0       0       0     0       0       0         0      0
 6     1 2019-01-27       0       0       0     0       0       0         0      0
 7     1 2019-01-28       0       0       0     0       0       0         0      0
 8     1 2019-01-29       0       0       0     0       0       0         0      0
 9     1 2019-01-30       0       0       0     0       0       0         0      0
10     1 2019-01-31       0       0       0     0       0       0         0      0
# ... with 24 more rows

将数据分成多个时间序列 R

问题描述

1 个解决方案

解决方案1
1 2021-03-14 16:21:11

结果：

填补缺失的日期。

结果：

将数据分成多个时间序列 R

问题描述

1 个解决方案

解决方案1 1 2021-03-14 16:21:11

结果：

填补缺失的日期。

结果：

解决方案1
1 2021-03-14 16:21:11