為什么rollapply在fill = NA和函數返回多個值時要慢得多？

Question

如果函數返回2個或更多值，並使用fill = NA ，則rollapply變得慢得多。 有什么辦法可以避免嗎？

f1= function(v)c(mean(v)+ median(v))    #return vector of length 1
f2= function(v)c(mean(v), median(v))    #return vector of length 2


v = rnorm(1000)
microbenchmark(rollapplyr(v, 20, f1), rollapplyr(v,20, f1, fill=NA) )

#                             expr      min       lq     mean   median       uq      max neval
#            rollapplyr(v, 20, f1) 50.84485 53.68726 57.21892 54.63793 57.78519 75.88305   100
# rollapplyr(v, 20, f1, fill = NA) 52.11355 54.69866 59.73473 56.20600 63.10546 99.96493   100

microbenchmark(rollapplyr(v, 20, f2), rollapplyr(v,20, f2, fill=NA) )

#                             expr      min       lq     mean   median       uq      max neval
#            rollapplyr(v, 20, f2) 51.77687 52.29403 56.80307 53.44605 56.65524 105.6713   100
# rollapplyr(v, 20, f2, fill = NA) 69.93853 71.08953 76.48056 72.21896 80.58282 151.4455   100

Answer 1

原因在於在不同類型的數據上使用fill.na的速度，就像rollapply()函數內部發生的rollapply() 。 你的f1返回一個向量，而f2返回一個兩列的矩陣（好吧，兩個實際上都是zoo對象，但你抓住了我的漂移）。

插入NA的速度降低與元素數量的僅僅加倍成比例，如下所示：

library(zoo)
library(microbenchmark)

v <- zoo(rnorm(1000))
m <- zoo(matrix(rnorm(2000), ncol=2))
ix <- seq(1000)>50
microbenchmark(na.fill(v, NA, ix), na.fill(m, NA, ix))

# Unit: microseconds
#               expr      min        lq       mean    median         uq      max neval
# na.fill(v, NA, ix)  402.861   511.912   679.1114   659.597   754.8385  4716.46   100
# na.fill(m, NA, ix) 9746.643 10091.038 14281.5598 14057.304 17589.9670 22249.96   100

為什么rollapply在fill = NA和函數返回多個值時要慢得多？

問題描述

1 個解決方案

解決方案1
3 已采納 2017-01-19 09:59:02

為什么rollapply在fill = NA和函數返回多個值時要慢得多？

問題描述

1 個解決方案

解決方案1 3 已采納 2017-01-19 09:59:02

解決方案1
3 已采納 2017-01-19 09:59:02