[英]R : data.table subsetting based on a integer column
只是想知道是否有一种更方便的数据子集。 基本上我有一张带有百万行和数百列的大桌子。 我想基于整数col / s对其进行子集化,其值在我定义的范围之间。
我想知道是否将相关列设置为Key它将是二进制搜索但是不确定我是否可以找到一系列值之间的行。
下面举例说明。
> n = 1e7
> dt <- data.table(a=rnorm(n),b=sample(letters,replace=T,n))
> system.time(subset(dt, a > 1 & a < 2))
user system elapsed
1.596 0.000 1.596
> system.time(dt[a %between% c(1,2)])
user system elapsed
1.168 0.000 1.168
可以这样做吗?
setkey(dt,a)
dt[ ] : get me the rows between 1 and 2 values of the key
谢谢! -Abhi
如果您设置的关键a
(这将需要一些时间(我的机器上14.7秒为n=1e7
),那么你可以使用滚动连接来找到您感兴趣的区域的开始和结束。
# thus the following will work.
dt[seq.int(dt[.(1),.I,roll=-1]$.I, dt[.(2), .I, roll=1]$.I)]
n = 1e7
dt <- data.table(a=rnorm(n),b=sample(letters,replace=T,n))
system.time(setkey(dt,a))
# This does take some time
# user system elapsed
# 14.72 0.00 14.73
library(microbenchmark)
f1 <- function() t1 <- dt[floor(a) == 1]
f2 <- function() t2 <- dt[a >= 1 & a <= 2]
f3 <- function() {t3 <- dt[seq.int(dt[.(1),.I,roll=-1]$.I, dt[.(2), .I, roll=1]$.I)] }
microbenchmark(f1(),f2(),f3(), times=10)
# Unit: milliseconds
# expr min lq median uq max neval
# f1() 371.62161 387.81815 394.92153 403.52299 489.61508 10
# f2() 529.62952 536.23727 544.74470 631.55594 634.92275 10
# f3() 65.58094 66.34703 67.04747 75.89296 89.10182 10
它现在“快”,但因为我们花了很长时间设置密钥。
添加@ eddi的基准测试方法
f4 <- function(tolerance = 1e-7){ # adjust according to your needs
start = dt[J(1 + tolerance), .I[1], roll = -Inf]$V1
end = dt[J(2 - tolerance), .I[.N], roll = Inf]$V1
if (start <= end) dt[start:end]}
microbenchmark(f1(),f2(),f3(),f4(), times=10)
# Unit: milliseconds
# expr min lq median uq max neval
# f1() 373.3313 391.07479 440.07025 488.54020 491.48141 10
# f2() 523.2319 530.11218 533.57844 536.67767 629.53779 10
# f3() 65.6238 65.71617 66.09967 66.56768 83.27646 10
# f4() 65.8511 66.26432 66.62096 83.86476 87.01092 10
Eddi的方法稍微安全一些,因为它可以处理浮点容差。
在这里执行setkey
会很昂贵(即使你在1.8.11
使用快速排序),因为它也必须移动数据(通过引用)。
但是,您可以使用floor
功能解决此问题。 基本上,如果你想要[1,2]中的所有数字(注意:这里包括1和2),那么floor
将为所有这些值提供值“1”。 也就是说,你可以这样做:
system.time(t1 <- dt[floor(a) == 1])
# user system elapsed
# 0.234 0.001 0.238
这相当于做dt[a >= 1 & a <=2]
并且快两倍。
system.time(t2 <- dt[a >= 1 & a <= 2])
# user system elapsed
# 0.518 0.081 0.601
identical(t1,t2) # [1] TRUE
但是,由于您不希望相等,因此您可以使用hack从列a
减去容差= .Machine$double.eps^0.5
。 如果该值在[1, 1+tolerance)
范围内,那么它仍然被认为是1.如果它只是更多,则它不再是1(内部)。 也就是说,它是机器可以识别为1的最小数字> 1.因此,如果您按公差减去'a',则内部表示为“1”的所有数字将变为<1并且floor(.)
将导致因此,您将获得范围> 1和<2。 那是,
dt[floor(a-.Machine$double.eps^0.5)==1]
将给出与dt[a>1 & a<2]
相同的结果。
如果你要重复这样做,那么可能创建一个具有此floor
函数的新列并在该integer
列上设置键可能有所帮助:
dt[, fa := as.integer(floor(a-.Machine$double.eps^0.5))]
system.time(setkey(dt, fa)) # v1.8.11
# user system elapsed
# 0.852 0.158 1.043
现在,您可以使用二进制搜索查询所需的任何范围:
> system.time(dt[J(1L)]) # equivalent to > 1 & < 2
# user system elapsed
# 0.071 0.002 0.076
> system.time(dt[J(1:4)]) # equivalent to > 1 & < 5
# user system elapsed
# 0.082 0.002 0.085
如果您有一个密钥集,那么您的数据将被排序,因此只需查找端点并获取两者之间的点:
setkey(dt, a)
tolerance = 1e-7 # adjust according to your needs
start = dt[J(1 + tolerance), .I[1], roll = -Inf]$V1
end = dt[J(2 - tolerance), .I[.N], roll = Inf]$V1
if (start <= end) dt[start:end]
这将比Arun的floor
方式慢一点,因为它有2个连接,但在正面,你可以插入你喜欢的任何数字。
我不是data.table
专家,但从我理解的key
搜索setkey(dt, b) ; dt['a']
setkey(dt, b) ; dt['a']
如此之快是因为它使用二进制搜索而不是矢量扫描。 对于子集化需要二元运算符的数字列,这是不可能的。
唯一的选择是做类似的事情:
dt[,Between:=ifelse(a > 1 & a < 2, 'yes', 'no')]
setkey(dt, Between)
> system.time(dt['yes'])
user system elapsed
0.04 0.00 0.03
有趣的是,它比以下更快:
Index = dt[,a > 1 & a < 2]
> system.time(dt[Index])
user system elapsed
0.23 0.00 0.23
但是,既然你可以将一个子集保存为单独的data.table,我认为它没有太多的应用程序。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.