使用 data.table 对 r 中的序列求和

Question

我正在尝试使用 r 中的 data.table 对系列的各个部分求和。 这个想法是我将开始索引和结束索引定义为表中的列，然后为“开始和结束索引之间的系列之和”创建第三列。

series = c(1,2,3,4,5,6)
a = data.table(start=c(1,2,3),end=c(4,5,6))
a[,S := sum(series[start:end])]
a

预期结果：

   start end  S
1:     1   4 10
2:     2   5 14
3:     3   6 18

实际结果：

Warning messages:
1: In start:end : numerical expression has 3 elements: only the first used
2: In start:end : numerical expression has 3 elements: only the first used
> a
   start end  S
1:     1   4 10
2:     2   5 10
3:     3   6 10

我在这里缺少什么？ 如果我只执行 a[,S := start+end] 代码会按预期执行。

Answer 1

一种选择是遍历有“开始”，“结束”列Map ，获得序列（ : ）对应的元素，得到的sum与unlist的list列分配（ := ）到一个新列

a[, S := unlist(Map(function(x, y) sum(x:y), start, end))]

-输出

a
#   start end  S
#1:     1   4 10
#2:     2   5 14
#3:     3   6 18

:没有针对其操作数进行向量化，即它在任一侧只需要一个操作数，这就是它显示警告的原因

Answer 2

也许您可以尝试像下面这样的cumsum ，它允许您在data.table应用矢量化操作

cs <- cumsum(series)
a[,S := cs[end]-c(0,cs)[start]]

这使

   start end  S
1:     1   4 10
2:     2   5 14
3:     3   6 18

Answer 3

您可以使用算术级数公式：

a[, S := (end - start + 1) * (start + end) / 2]

给出：

   start end  S
1:     1   4 10
2:     2   5 14
3:     3   6 18

Answer 4

如果您将其设为按行操作，则您的代码将起作用，因此每个start和end代表一个值。

library(data.table)
a[,S := sum(series[start:end]), 1:nrow(a)]
a

#   start end  S
#1:     1   4 10
#2:     2   5 14
#3:     3   6 18

使用 data.table 对 r 中的序列求和

问题描述

4 个解决方案

解决方案1
4 2020-10-30 00:04:13

解决方案2
3 2020-10-30 00:23:16

解决方案3
3 2020-10-30 00:24:22

解决方案4
2 已采纳 2020-10-30 03:08:18

使用 data.table 对 r 中的序列求和

问题描述

4 个解决方案

解决方案1 4 2020-10-30 00:04:13

解决方案2 3 2020-10-30 00:23:16

解决方案3 3 2020-10-30 00:24:22

解决方案4 2 已采纳 2020-10-30 03:08:18

解决方案1
4 2020-10-30 00:04:13

解决方案2
3 2020-10-30 00:23:16

解决方案3
3 2020-10-30 00:24:22

解决方案4
2 已采纳 2020-10-30 03:08:18