簡體   English   中英

通過在R中的數據幀的行上應用Reduce函數來創建新列

[英]Create a new column by applying a Reduce function over rows of a dataframe in R

我有一個包含ID,日期和觀察到的收益的數據框。 可以比喻為:

df <- data.frame(
  ID = gl(3, 10, labels = c("A", "B", "C")), 
  Date = factor(rep(2006, 2015, 3)), 
  lr = runif(30, -0.01, 0.01))

查看快照

現在,我想使用以下函數查找每個ID的指數移動平均值的向量,並將它們作為新列添加到我的原始數據幀中:

Emean<-function(x){
    ema <- function(a,b) {lambda*a+(1-lambda)*b}
    Reduce(ema, x, accumulate=T)
}

因此,我希望結果數據框具有ID,Date,lr和mlr列。 最后一列(mlr)將使用上述函數進行計算; 和(很抱歉使用寬松的符號!),但這是公式:

mlr_t=lambda*mlr_t-1 + (1-lambda)*lr_t

“ _t”表示時間。

現在,正如我所說,我想將我的函數應用於按ID分組的行,並將結果作為列添加到此數據框。 無法將“ Reduce”的輸出直接添加到該數據幀,因此我必須分幾個步驟對其進行操作,這在R中非常耗時。

我需要一種計算有效的解決方案來完成我所說的事情。 在實際數據集中,我有+ 100K ID和每個ID +250個日期。

mlr_0 = 0
mlr_1 = 0 + (1-lambda)*lr_1
mlr_2 = lambda * mlr_1 + (1-lambda)*lr_2
      = lambda * (1-lambda) * lr_1 + (1-lambda)*lr_2
mlr_3 = lambda * mlr_2 + (1-lambda)*lr_3
      = lambda^2 * (1-lambda) * lr_1 + lambda * (1-lambda) * lr_2 + (1-lambda)*lr_3
...
mlr_t = lambda^(t-1) * (1-lambda) * lr_1 + lambda^(t-2) * (1-lambda) * lr_2 + ...
      = \Sum_{i=1}^{t} lambda^(t-i) * (1-lambda)*lr_i

你可以做這樣的事情(使用data.table

setDT(df)
lambda <- 0.5
# This calculates the lambda^(t-i)
l <- function(i, lambda){ lambda^(i-seq_len(i)) }

# This calculates multiplies element wise and sums up the mlr_3
my_fun <- function(x, lr, lambda){
  sum((1-lambda) * c(0,lr)[1:x] * l(x, lambda))}

# Apply both function to the vector
df[, vapply(seq_len(.N), my_fun, numeric(1), lr, lambda)  ,by = ID]

結果(帶有set.seed(42)

    ID        V1
 1:  A 0.0000000
 2:  A 0.4574030
 3:  A 0.6972392
 4:  A 0.4916894
 5:  A 0.6610685
 6:  A 0.6514070
 7:  A 0.5852515
 8:  A 0.6609199
 9:  A 0.3977932
10:  A 0.5273928
11:  B 0.0000000
12:  B 0.2288709
...

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM