计算特定时间段内的发生次数

Question

我有以下数据，其中 ID 代表个人，日期代表日期，购买代表是否有人购买（我做了最后一个，以便计算发生次数）：

   ID       Date Purchased
1   1 2017-01-01         1
2   1 2017-08-03         1
3   1 2017-09-02         1
4   2 2017-09-04         1
5   2 2018-07-12         1
6   2 2018-11-03         1
7   2 2018-12-05         1
8   2 2019-01-01         1
9   3 2018-02-03         1
10  3 2020-02-03         1
11  3 2020-03-01         1

我想创建一个名为“Frequency”的变量，通过汇总您在数据框中看到的特定日期之前的所有“Purchased”来计算个人在过去一年中购买的次数。

因此，例如，对于第 3 行，这将导致“频率”为 2，因为2017-01-01和2017-08-03都在2017-09-02的一年时间段内（因此在2016-09-02年 9 月 2 日和2017-09-01年 9 月 1 日）。
请参阅所需的 output：

   ID       Date Purchased Frequency
1   1 2017-01-01         1         0
2   1 2017-08-03         1         1
3   1 2017-09-02         1         2
4   2 2017-09-04         1         0
5   2 2018-07-12         1         1
6   2 2018-11-03         1         1
7   2 2018-12-05         1         2
8   2 2019-01-01         1         3
9   3 2018-02-03         1         0
10  3 2020-02-03         1         0
11  3 2020-03-01         1         1

要重现 dataframe：

df <- data.frame(ID = c(1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3), Date = as.Date(c('2017-01-01', '2017-08-03', '2017-09-02', '2017-09-04', '2018-07-12', '2018-11-03', '2018-12-05', '2019-01-01', '2018-02-03', '2020-02-03', '2020-03-01')), Purchased = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1 ))

我已经在 stackoverlow 上进行了搜索，但还没有找到可以应用于我的情况并获得所需结果的答案。 我发现并尝试过的其中一件事是：

df$frequency <-
sapply(df$Date, function(x){
sum(df$Date < x & df$Date >= x - 365)
})

我相信这可能会给我我想要的结果，如果我能找到一种方法来包含它按 ID 分组（所以它是每个 ID 的总和而不是整体）。 当然不能肯定地说，因为我无法测试它。 任何帮助深表感谢。

Answer 1

这是一个tidyverse解决方案：

library(dplyr)
library(purrr)
library(lubridate)

df %>%
  group_by(ID) %>%
  mutate(Frequency = map_dbl(Date, 
                     ~sum(Purchased[between(Date, .x - years(1), .x - 1)]))) %>%
  ungroup

#      ID Date       Purchased Frequency
#   <dbl> <date>         <dbl>     <dbl>
# 1     1 2017-01-01         1         0
# 2     1 2017-08-03         1         1
# 3     1 2017-09-02         1         2
# 4     2 2017-09-04         1         0
# 5     2 2018-07-12         1         1
# 6     2 2018-11-03         1         1
# 7     2 2018-12-05         1         2
# 8     2 2019-01-01         1         3
# 9     3 2018-02-03         1         0
#10     3 2020-02-03         1         0
#11     3 2020-03-01         1         1

代码的逻辑是对于每个ID中的每个Date ，它sum当前日期 - 1 年和当前日期 - 1 天之间的已Purchased值。

Answer 2

您可以将非 equi 连接与data.table一起使用：

library(data.table)

setDT(df)
df[,c("Date","Before"):=.(as.Date(Date),as.Date(Date)-365)]
df[df,.(ID, Date),on=.(ID=ID, Date>=Before, Date<=Date)][,.N-1,by=.(ID,Date)]

   ID       Date V1
 1:  1 2017-01-01  0
 2:  1 2017-08-03  1
 3:  1 2017-09-02  2
 4:  2 2017-09-04  0
 5:  2 2018-07-12  1
 6:  2 2018-11-03  1
 7:  2 2018-12-05  2
 8:  2 2019-01-01  3
 9:  3 2018-02-03  0
10:  3 2020-02-03  0
11:  3 2020-03-01  1

计算特定时间段内的发生次数

问题描述

2 个解决方案

解决方案1
2 已采纳 2021-05-05 03:28:48

解决方案2
1 2021-05-04 21:53:57

计算特定时间段内的发生次数

问题描述

2 个解决方案

解决方案1 2 已采纳 2021-05-05 03:28:48

解决方案2 1 2021-05-04 21:53:57

解决方案1
2 已采纳 2021-05-05 03:28:48

解决方案2
1 2021-05-04 21:53:57