如何计算R中可变行之间的时间差？

Question

我希望根据开始工作时间和结束工作时间来计算不同组的时间差异。 如何告诉R根据一组中的标签计算两行之间的差异时间？ 以下是样本数据集：

library(data.table)


latemail <- function(N, st="2012/01/01", et="2012/02/01") {
  st <- as.POSIXct(as.Date(st))
  et <- as.POSIXct(as.Date(et))
  dt <- as.numeric(difftime(et,st,unit="sec"))
  ev <- sort(runif(N, 0, dt))
  rt <- st + ev

}

#create our data frame
set.seed(42)
dt = latemail(20)
work = setDT(as.data.frame(dt))
work[,worker:= stringi::stri_rand_strings(2, 5)]  
work[,dt:= as.POSIXct(as.character(work$dt), tz = "GMT")]
work[,status:=NA]

#order
setorder(work, worker, dt)

#add work times
work$status[1] = "start"
work$status[5] = "end"
work$status[6] = "start"
work$status[10] = "end"
work$status[11] = "start"
work$status[15] = "end"
work$status[16] = "start"
work$status[20] = "end"

表格现在看起来像这样：

                    dt worker status
 1: 2012-01-04 23:11:31  VOuRp  start
 2: 2012-01-09 15:53:16  VOuRp     NA
 3: 2012-01-15 02:56:45  VOuRp     NA
 4: 2012-01-16 21:12:26  VOuRp     NA
 5: 2012-01-20 16:27:31  VOuRp    end
 6: 2012-01-22 15:34:05  VOuRp  start
 7: 2012-01-23 15:01:18  VOuRp     NA
 8: 2012-01-29 03:36:56  VOuRp     NA
 9: 2012-01-29 20:11:02  VOuRp     NA
10: 2012-01-31 02:48:01  VOuRp    end
11: 2012-01-04 10:24:38  u8zw5  start
12: 2012-01-08 17:02:20  u8zw5     NA
13: 2012-01-14 23:33:35  u8zw5     NA
14: 2012-01-15 12:23:52  u8zw5     NA
15: 2012-01-18 03:53:15  u8zw5    end
16: 2012-01-21 03:48:08  u8zw5  start
17: 2012-01-23 02:01:10  u8zw5     NA
18: 2012-01-26 12:51:10  u8zw5     NA
19: 2012-01-29 18:23:46  u8zw5     NA
20: 2012-01-29 22:22:14  u8zw5    end

我正在寻找的答案：最终我想获得最低值（标为worker 1和worker 2的原因只是不确定如何对set.seed()进行并行处理）。 以下代码为我提供了工作者1的第一行，但我希望为每个工作者进行每次轮班：

difftime(as.POSIXct("2012-01-20 16:27:31"), as.POSIXct("2012-01-04 23:11:31"), units = "hours")
    Work time   time difference in hours  
    worker 1         377.2667 hours
    worker 2         . . . .

在此示例中，我在工人之间有一组均匀的值，但是假设我在不同工人之间有可变的行，那会是什么样？ 我假设某种difftime公式？ 在处理大数据时，我会推荐一个数据表解决方案。

Answer 1

这是使用data.table的解决方案：

 work[status %in% c("start", "end"), 
        time.diff := ifelse(status == "start", 
        difftime(shift(dt, fill = NA, type = "lead"), dt, units = "hours"), NA), 
        by = worker][status == "start", sum(time.diff), worker]

我们得到：

 worker       V1
1:  VOuRp 580.4989
2:  u8zw5 540.0453
>

其中V1具有每个工人从开始到结束的所有小时数的总和。

让我们逐步解释它以便更好地理解。

步骤1.选择所有具有start或end状态的行：

work.se <- work[status %in% c("start", "end")]

                    dt worker status
1: 2012-01-04 23:11:31  VOuRp  start
2: 2012-01-20 16:27:31  VOuRp    end
3: 2012-01-22 15:34:05  VOuRp  start
4: 2012-01-31 02:48:01  VOuRp    end
5: 2012-01-04 10:24:38  u8zw5  start
6: 2012-01-18 03:53:15  u8zw5    end
7: 2012-01-21 03:48:08  u8zw5  start
8: 2012-01-29 22:22:14  u8zw5    end
>

步骤2 ：创建一个函数，用于计算当前行与下一行之间的时间差。 此函数将在data.table对象内部调用。 我们使用同一包中的shift函数：

getDiff <- function(x) {
    difftime(shift(x, fill = NA, type = "lead"), x, units = "hours")
}

getDiff计算下一条记录（组内）与当前记录之间的时间差。 因为没有下一个值，所以它将NA分配给最后一行。 然后我们从计算中排除NA值。

步骤3 ：在data.table语法中调用它：

work.result <- work.se[, time.diff := ifelse(status == "start", 
    getDiff(dt), NA), by = worker]

我们得到这个：

                    dt worker status time.diff
1: 2012-01-04 23:11:31  VOuRp  start  377.2667
2: 2012-01-20 16:27:31  VOuRp    end        NA
3: 2012-01-22 15:34:05  VOuRp  start  203.2322
4: 2012-01-31 02:48:01  VOuRp    end        NA
5: 2012-01-04 10:24:38  u8zw5  start  329.4769
6: 2012-01-18 03:53:15  u8zw5    end        NA
7: 2012-01-21 03:48:08  u8zw5  start  210.5683
8: 2012-01-29 22:22:14  u8zw5    end        NA

步骤4 ：求和每个工作人员的time.diff列的非NA值：

> work.result[status == "start", sum(time.diff), worker]
   worker       V1
1:  VOuRp 580.4989
2:  u8zw5 540.0453
>

可以通过附加[]来连接data.table对象，因此可以将其合并为最后一部分的单个句子：

work.se[, time.diff := ifelse(status == "start", 
    getDiff(dt), NA), by = worker][status == "start", sum(time.diff), worker]

最后：将所有内容合并为一个句子：

work[status %in% c("start", "end"), 
    time.diff := ifelse(status == "start", 
    difftime(shift(dt, fill = NA, type = "lead"), dt, units = "hours"), NA), 
    by = worker][status == "start", sum(time.diff), worker]

检查此链接以获取data.table基本语法。 希望对您有所帮助，请告诉我们您是否想要的

如何计算R中可变行之间的时间差？

问题描述

1 个解决方案

解决方案1
4 已采纳 2017-03-10 04:24:53

如何计算R中可变行之间的时间差？

问题描述

1 个解决方案

解决方案1 4 已采纳 2017-03-10 04:24:53

解决方案1
4 已采纳 2017-03-10 04:24:53