如果行在特定时间内按 R 中的组值发生，则删除行

Question

我的数据df如下所示：

Row    Timestamp            ID
1    0020-06-29 12:14:00     B 
2    0020-06-29 12:27:00     A 
3    0020-06-29 12:27:22     B  
4    0020-06-29 12:28:30     A 
5    0020-06-29 12:43:00     B 
6    0020-06-29 12:44:00     C 
7    0020-06-29 12:45:00     B 
8    0020-06-29 12:55:00     A 
9    0020-06-29 12:57:00     C 
10   0020-06-29 13:04:00     B

Timestamp表示读数的日期和时间， ID表示标签识别码。

我想要做的是删除与前一个时间戳 5 分钟内出现的相同ID的任何Timestamp 。 因此，虽然ID A 出现在第 2 Row和Row 4 行中，但由于 dataframe 的两行在 5 分钟内出现，我们将删除第 4 Row但保留Row 2 Row和第 8 行，对于 ID A 来说，这发生在 18 分钟后.

更新：第一个时间戳应该是先例，所有后续时间戳都应该保留或从那时起删除。 因此，如果我们有 3 个时间戳对应于相同的 ID，时间间隔分别为 4.5 分钟和 2 分钟，时间戳 1 和 2 以及时间戳 2 和 3 之间，我想删除时间戳 2 并保留 1 和 3。这我们保留的下一个时间戳将是在时间戳 3 之后至少 5 分钟出现的时间戳，依此类推。

我尝试了以下方法：

first_date <- df$Timestamp[1:(length(df$Timestamp)-1)]
second_date <- df$Timestamp[2:length(df$Timestamp)]
second_gap <- difftime(second_date, first_date, units="mins")

dup_index <- second_gap>5 # set this as a 5-minute threshold
dup_index <- c(TRUE, dup_index)
df_cleaned <- df[dup_index, ]

但这会删除彼此相隔 5 分钟内的所有观察结果，并且不会考虑ID 。 我通常只是subset ，但我正在处理大约 180 个唯一ID 。

Answer 1

假设我上面的评论没有发生，可能的解决方案如下：

library(tidyverse)
library(lubridate)

elapsed <- function(x)
{
  y <- abs(as.duration(x[2:length(x)] %--% x[1:(length(x)-1)]))
  y >= 5*60
} 

df %>% 
  group_split(ID) %>% 
  map_dfr(~ .[c(T, if (nrow(.) > 1) elapsed(.$Timestamp)),]) %>% 
  arrange(Row)

output：

# A tibble: 8 × 3
    Row Timestamp           ID   
  <int> <chr>               <chr>
1     1 0020-06-29 12:14:00 B    
2     2 0020-06-29 12:27:00 A    
3     3 0020-06-29 12:27:22 B    
4     5 0020-06-29 12:43:00 B    
5     6 0020-06-29 12:44:00 C    
6     8 0020-06-29 12:55:00 A    
7     9 0020-06-29 12:57:00 C    
8    10 0020-06-29 13:04:00 B

如果行在特定时间内按 R 中的组值发生，则删除行

问题描述

1 个解决方案

解决方案1
0 已采纳 2021-10-05 18:05:21

如果行在特定时间内按 R 中的组值发生，则删除行

问题描述

1 个解决方案

解决方案1 0 已采纳 2021-10-05 18:05:21

解决方案1
0 已采纳 2021-10-05 18:05:21