日期在间隔和拉范围内

Question

我有两个df： maindf和list 。

ID <- c(1, 1, 1, 1, 5, 5)
SURVEY_DATE <- c("1997-08-01", "1998-08-20", "1998-11-20", "2000-12-13", "1998-05-02", "1998-12-25")
SURVEY_DATE <- as.Date(SURVEY_DATE)
maindf <- data.frame(ID, SURVEY_DATE)
maindf

ID <- c(1, 1, 1, 1, 5, 5)
ASSIGN_DATE <- c(1997, 1998, 1999, 2000, 1997, 1998)
TIME1 <- c("1997-07-23", "1998-11-17", "1999-12-15", "2000-12-11", "1998-04-07", "1998-12-06")
  TIME1 <- as.Date(TIME1)
TIME2 <- c("1998-11-17", "1999-12-15", "2000-12-11", "2001-12-30", "1998-12-06", "1999-11-28")
  TIME2 <- as.Date(TIME2)
list <- data.frame(ID, ASSIGN_DATE, TIME1, TIME2)
list

maindf有一个SURVEY_DATE字段。 此字段需要检查list以查看其是否在ID TIME1和TIME2之内。 如果是这样，我想将ASSIGN_DATE maindf 。

最终产品应如下所示：

ID SURVEY_DATE     ASSIGN_DATE
1  1  1997-08-01     1997
2  1  1998-08-20     1997
3  1  1998-11-20     1998
4  1  2000-12-13     2000
5  5  1998-05-02     1997
6  5  1998-12-25     1998

我知道这与本帖子和本帖子非常相似，但是我在按ID提取字段时遇到了一些麻烦。

Answer 1

OP已请求“ 将ASSIGN_DATE拉入maindf ”。

这可以通过更新连接来实现，该连接 通过引用修改maindf ：

library(data.table)
setDT(maindf)[setDT(list), on = .(ID, SURVEY_DATE >= TIME1, SURVEY_DATE <= TIME2), 
       ASSIGN_DATE := i.ASSIGN_DATE][]

  ID SURVEY_DATE ASSIGN_DATE 1: 1 1997-08-01 1997 2: 1 1998-08-20 1997 3: 1 1998-11-20 1998 4: 1 2000-12-13 2000 5: 5 1998-05-02 1997 6: 5 1998-12-25 1998

Answer 2

我缺乏创造力，比现在的for循环更具创造力，但是至少这可以完成工作：

# recreate data (because I like lowercase)
maindf <- data.frame(
    id = c(1, 1, 1, 1, 5, 5), 
    sdate = as.Date(c("1997-08-01", "1998-08-20", "1998-11-20", "2000-12-13", "1998-05-02", "1998-12-25")))

otherdf <- data.frame(
    id = c(1, 1, 1, 1, 5, 5),
    adate = c(1997, 1998, 1999, 2000, 1997, 1998),
    time1 = as.Date(c("1997-07-23", "1998-11-17", "1999-12-15", "2000-12-11", "1998-04-07", "1998-12-06")),
    time2 = as.Date(c("1998-11-17", "1999-12-15", "2000-12-11", "2001-12-30", "1998-12-06", "1999-11-28"))
)

# my sad loop
maindf$adate <- NA
for(i in 1:nrow(maindf)) {
    c1 <- otherdf$id    == maindf[i, "id"]
    c2 <- otherdf$time1 <  maindf[i, "sdate"]
    c3 <- otherdf$time2 >  maindf[i, "sdate"]
    maindf[i, "adate"] <- otherdf[c1 & c2 & c3, "adate"]
}

Answer 3

选项1： data.table方式

使用data.table::foverlaps

library(data.table)
setDT(maindf)[, `:=`(TIME1 = SURVEY_DATE, TIME2 = SURVEY_DATE)]
setDT(list)

# Interval-merge by TIME1 and TIME2
setkey(list, ID, TIME1, TIME2)
dt <- foverlaps(maindf, list)

# Clean up to reproduce expected output
dt[, .SD, .SDcols = c(names(maindf)[1:2], "ASSIGN_DATE")]
#   ID SURVEY_DATE ASSIGN_DATE
#1:  1  1997-08-01        1997
#2:  1  1998-08-20        1997
#3:  1  1998-11-20        1998
#4:  1  2000-12-13        2000
#5:  5  1998-05-02        1997
#6:  5  1998-12-25        1998

说明： foverlaps根据来自两个data.tables的时间间隔执行重叠连接。 foverlaps要求在每个开始和结束的时间点data.table ，所以我们选择TIME1 = SURVEY_DATE为开端， TIME2 = SURVEY_DATA作为终点maindf 。 foverlaps需要知道的钥匙由合并（这里ID ， TIME1和TIME2 ）为第二个参数foverlaps我们设置setkey 。

选项2： tidyverse / fuzzyjoin方法

使用fuzzyjoin::fuzzy_left_join

library(fuzzyjoin)
library(tidyverse)
maindf %>% mutate(SURVEY_DATE = as.Date(SURVEY_DATE)) %>%
    fuzzy_left_join(
        list %>% mutate_at(vars(starts_with("TIME")), as.Date),
        by = c("ID" = "ID", "SURVEY_DATE" = "TIME1", "SURVEY_DATE" = "TIME2"),
        match_fun = list(`==`, `>=`, `<=`)) %>%
    rename(ID = ID.x) %>%
    select(names(maindf), ASSIGN_DATE)
#  ID SURVEY_DATE ASSIGN_DATE
#1  1  1997-08-01        1997
#2  1  1998-08-20        1997
#3  1  1998-11-20        1998
#4  1  2000-12-13        2000
#5  5  1998-05-02        1997
#6  5  1998-12-25        1998

Answer 4

data.table“非equi join”获胜：

#re-create data as data.tables and with lowercase
library(data.table)
maindt <- data.table(
    id = c(1, 1, 1, 1, 5, 5), 
    sdate = as.Date(c("1997-08-01", "1998-08-20", "1998-11-20", "2000-12-13", "1998-05-02", "1998-12-25")))

otherdt <- data.table(
    id = c(1, 1, 1, 1, 5, 5),
    adate = c(1997, 1998, 1999, 2000, 1997, 1998),
    time1 = as.Date(c("1997-07-23", "1998-11-17", "1999-12-15", "2000-12-11", "1998-04-07", "1998-12-06")),
    time2 = as.Date(c("1998-11-17", "1999-12-15", "2000-12-11", "2001-12-30", "1998-12-06", "1999-11-28"))
)

#one-line merge
maindt[otherdt, on = .(id==id, cond1 = sdate > time1, cond3 = sdate < time2), .(id, sdate=x.sdate, adate), nomatch=0]

在我看来，非等号联接语法是一场噩梦，但我一直在努力应对dt1 [dt2]合并样式，因此我知道...

Answer 5

使用完全外部联接和条件子集的基本R解决方案...

#full outer join 
foj <- merge(maindf, list, all = TRUE, by = "ID")
#conditional subset
df2 <- subset(foj, SURVEY_DATE >= TIME1 & SURVEY_DATE <= TIME2)

# > df2[, c("ID", "SURVEY_DATE", "ASSIGN_DATE")]
#     ID SURVEY_DATE       ASSIGN_DATE
# 1   1  1997-08-01        1997
# 5   1  1998-08-20        1997
# 10  1  1998-11-20        1998
# 16  1  2000-12-13        2000
# 17  5  1998-05-02        1997
# 20  5  1998-12-25        1998

日期在间隔和拉范围内

问题描述

5 个解决方案

解决方案1
2 已采纳 2018-08-11 07:22:05

解决方案2
0 2018-08-11 01:52:18

解决方案3
0 2018-08-11 02:08:38

解决方案4
0 2018-08-11 02:23:41

解决方案5
0 2018-08-11 02:56:50

日期在间隔和拉范围内

问题描述

5 个解决方案

解决方案1 2 已采纳 2018-08-11 07:22:05

解决方案2 0 2018-08-11 01:52:18

解决方案3 0 2018-08-11 02:08:38

解决方案4 0 2018-08-11 02:23:41

解决方案5 0 2018-08-11 02:56:50

解决方案1
2 已采纳 2018-08-11 07:22:05

解决方案2
0 2018-08-11 01:52:18

解决方案3
0 2018-08-11 02:08:38

解决方案4
0 2018-08-11 02:23:41

解决方案5
0 2018-08-11 02:56:50