![](/img/trans.png)
[英]R: Calculating the number of occurrences within a specific time period in the past for each unique individual in a dataset in R
[英]Calculate number of occurrences within a specific time period
我有以下數據,其中 ID 代表個人,日期代表日期,購買代表是否有人購買(我做了最后一個,以便計算發生次數):
ID Date Purchased
1 1 2017-01-01 1
2 1 2017-08-03 1
3 1 2017-09-02 1
4 2 2017-09-04 1
5 2 2018-07-12 1
6 2 2018-11-03 1
7 2 2018-12-05 1
8 2 2019-01-01 1
9 3 2018-02-03 1
10 3 2020-02-03 1
11 3 2020-03-01 1
我想創建一個名為“Frequency”的變量,通過匯總您在數據框中看到的特定日期之前的所有“Purchased”來計算個人在過去一年中購買的次數。
因此,例如,對於第 3 行,這將導致“頻率”為 2,因為2017-01-01
和2017-08-03
都在2017-09-02
的一年時間段內(因此在2016-09-02
年 9 月 2 日和2017-09-01
年 9 月 1 日)。
請參閱所需的 output:
ID Date Purchased Frequency
1 1 2017-01-01 1 0
2 1 2017-08-03 1 1
3 1 2017-09-02 1 2
4 2 2017-09-04 1 0
5 2 2018-07-12 1 1
6 2 2018-11-03 1 1
7 2 2018-12-05 1 2
8 2 2019-01-01 1 3
9 3 2018-02-03 1 0
10 3 2020-02-03 1 0
11 3 2020-03-01 1 1
要重現 dataframe:
df <- data.frame(ID = c(1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3), Date = as.Date(c('2017-01-01', '2017-08-03', '2017-09-02', '2017-09-04', '2018-07-12', '2018-11-03', '2018-12-05', '2019-01-01', '2018-02-03', '2020-02-03', '2020-03-01')), Purchased = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1 ))
我已經在 stackoverlow 上進行了搜索,但還沒有找到可以應用於我的情況並獲得所需結果的答案。 我發現並嘗試過的其中一件事是:
df$frequency <-
sapply(df$Date, function(x){
sum(df$Date < x & df$Date >= x - 365)
})
我相信這可能會給我我想要的結果,如果我能找到一種方法來包含它按 ID 分組(所以它是每個 ID 的總和而不是整體)。 當然不能肯定地說,因為我無法測試它。 任何幫助深表感謝。
這是一個tidyverse
解決方案:
library(dplyr)
library(purrr)
library(lubridate)
df %>%
group_by(ID) %>%
mutate(Frequency = map_dbl(Date,
~sum(Purchased[between(Date, .x - years(1), .x - 1)]))) %>%
ungroup
# ID Date Purchased Frequency
# <dbl> <date> <dbl> <dbl>
# 1 1 2017-01-01 1 0
# 2 1 2017-08-03 1 1
# 3 1 2017-09-02 1 2
# 4 2 2017-09-04 1 0
# 5 2 2018-07-12 1 1
# 6 2 2018-11-03 1 1
# 7 2 2018-12-05 1 2
# 8 2 2019-01-01 1 3
# 9 3 2018-02-03 1 0
#10 3 2020-02-03 1 0
#11 3 2020-03-01 1 1
代碼的邏輯是對於每個ID
中的每個Date
,它sum
當前日期 - 1 年和當前日期 - 1 天之間的已Purchased
值。
您可以將非 equi 連接與data.table
一起使用:
library(data.table)
setDT(df)
df[,c("Date","Before"):=.(as.Date(Date),as.Date(Date)-365)]
df[df,.(ID, Date),on=.(ID=ID, Date>=Before, Date<=Date)][,.N-1,by=.(ID,Date)]
ID Date V1
1: 1 2017-01-01 0
2: 1 2017-08-03 1
3: 1 2017-09-02 2
4: 2 2017-09-04 0
5: 2 2018-07-12 1
6: 2 2018-11-03 1
7: 2 2018-12-05 2
8: 2 2019-01-01 3
9: 3 2018-02-03 0
10: 3 2020-02-03 0
11: 3 2020-03-01 1
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.