[英]Rolling AR regressions in R
我正在管理具有 348 个观测值的纯月度时间序列数据。
这是可重现的样本数据:
library(dplyr)
set.seed(123)
Y <- cumsum(rnorm(48))
date <- as.Date(c("2012-01-01", "2012-02-01", "2012-03-01", "2012-04-01",
"2012-05-01","2012-06-01", "2012-07-01", "2012-08-01",
"2012-09-01","2012-10-01","2012-11-01", "2012-12-01",
"2013-01-01", "2013-02-01","2013-03-01", "2013-04-01",
"2013-05-01","2013-06-01", "2013-07-01", "2013-08-01",
"2013-09-01","2013-10-01","2013-11-01", "2013-12-01",
"2014-01-01", "2014-02-01","2014-03-01", "2014-04-01",
"2014-05-01","2014-06-01", "2014-07-01", "2014-08-01",
"2014-09-01","2014-10-01","2014-11-01", "2014-12-01",
"2015-01-01", "2015-02-01", "2015-03-01", "2015-04-01",
"2015-05-01","2015-06-01", "2015-07-01", "2015-08-01",
"2015-09-01","2015-10-01","2015-11-01", "2015-12-01"))
data<-data.frame(date,Y)
我正在复制一篇论文并计算“震惊”。 引用的程序如下:
“这些系列中的每一个中的冲击都是通过 AR(2) 模型在以第 n 个月结束的 10 个月滚动窗口内计算的。第 n+1 个月的冲击用 dYn+1 表示是该系列实际值之间的差异及其使用前 10 个月估计的斜率系数的预测值。因此,我们的方法是前瞻性的,提供样本外预测误差。”
根据原作者的说法,带有趋势项的 AR(2) 模型如下:
Yt = a0 + a1*Yt-1 + a2*Yt-2 + a3*Tt+ residualt
where Tt is the serial number of the observation, to account for a time trend in these series.
如果我的目标是使用前 10 个 obs 计算第 11 个的平均值,我可以简单地调用以下代码:
Mean= slide_index_dbl(Y, date, mean, .before = months(10), .after = months(-1), .complete = T)
但是,在这种情况下,目标是使用所有之前的 10 个 obs 运行 AR 模型,并使用此估计模型预测第 11 个,最终输出是第 11 个的实际值减去预测值。 简单来说,我需要构造一个函数来实现这个目标,而不是在前面的例子中使用“mean”函数。
一旦我完成这个函数(我们称之为 AR_2),我们就可以在滑块内部调用它。
library(slider)
data1<-data%>%
mutate(Shock= slide_index_dbl(Y, date, AR_2, .before = months(10), .after = months(-1), .complete = T))
Date Y N Predict Shock
2012-01-01 0.15 1 0.2 -0.005
2012-02-01 0.4 2 0.33 0.07
2012-03-01 0.39 3 0.44 -0.05
...
2012-10-01 1.85 10 2.1 -0.25
2012-11-01 1.7 11 1.5 0.2
2012-12-01 3.46 12 4.1 -0.65
让我使用我制作的上述示例数据来说明我的问题。 最终输出是 Shock,它是 Y(实际数据)和 Predicted Y 之间的差值。话虽如此,问题是如何得到 Predicted Y。在我们预测 Y 之前,我们需要先通过输入先前的数据来训练 AR 模型10 个月的数据。 一旦你得到这个模型,你就可以用这个模型预测第 11 个 obs,那将是预测的 Y。最后的尝试是计算它与实际 Y 之间的差异,这称为冲击。
数值示例如下:为了获得 2012-11-01 的输出 0.074,我需要使用从 2012-01-01 到 2012-10-01 的所有前 10 个月的数据训练一个 AR(2) 模型,即Y 为 0.15 到 1.85,N 为 1 到 10。一旦我训练了这个模型,我就用它来预测 2012 年 11 月 1 日的新值 (0.2)。 最终输出“Shock”是 2012-11-01 的实际观测值与预测观测值之间的差值 (0.15-0.2=0.05)。
同样,为了获得 2012-12-01 的输出 0.08,我需要使用从 2012-02-01 到 2012-11-01 的所有前 10 个月的数据训练一个 AR(2) 模型,即从 0.4 到 1.7对于 Y 和 2 到 11,对于 N。一旦我训练了这个模型,我就用它来预测 2012 年 12 月 1 日的新值 (4.1)。 最终输出“Shock”是 2012-12-01 的实际观测值与预测观测值之间的差值 (3.46-4.1=-0.65)。
我不知道如何编写这样的函数(AR_2)并在 slide_index_dbl 中调用它。 请记住 AR_2 中有一个趋势项 a3*Tt,我不知道如何建模。
以下是我尝试过的。 我使用 lm 来实现 AR moel 而不是 arima。 这是因为我不知道如何使用 arima 来预测新值。 如果有人熟悉 arima 或 Arima 功能,请使用它。
Intercept_extract_lm<-function(x){
N<-rep(1:10)
model<-lm(x~ lag(x,1)+ lag(x, 2)+N)
coef(model)["(Intercept)"]
}
Log_1_extract_lm<-function(x){
N<-rep(1:10)
model<-lm(x~ lag(x,1)+ lag(x, 2)+N)
coef(model)["Lag_1"]
}
Log_2_extract_lm<-function(x){
N<-rep(1:10)
model<-lm(x~ lag(x,1)+ lag(x, 2)+N)
coef(model)["Lag_2"]
}
drift_extract_lm<-function(x){
N<-rep(1:10)
model<-lm(x~ lag(x,1)+ lag(x, 2)+N)
coef(model)["N"]
}
data1<-data%>%
mutate(Lag_1=lag(Y,1),Lag_2=lag(Y,2),N=1:n(),
a1=slide_index_dbl(Y, Date, Log_1_extract_lm, .before = months(10), .after = months(-1), .complete = T),
a2=slide_index_dbl(Y, Log_2_extract_lm, .before = months(10), .after = months(-1), .complete = T),
drift=slide_index_dbl(Y, Date, drift_extract_lm, .before = months(10), .after = months(-1), .complete = T),
Intercept = slide_index_dbl(Y, Date, Intercept_extract_lm, .before = months(10), .after = months(-1), .complete = T),
Predict=Intercept+a1*Lag_1+a2*Lag_2+drift,
Shock=Y-Predict)
我知道我的代码中最大的问题是它只能在滑块中使用一个输入参数,但我在定义的所有自定义函数中使用了四个(Y 和 lag_1 以及 lag_2 和 N)。 与前面的例子不同,我们只计算一个变量的滚动平均值,在这种情况下,为了运行这样的回归,我们需要在每个滚动窗口中有四个变量,但滑块只有一个变量输入。 即使我们编辑“提取”函数将四个变量减少到两个(lag_1和lag_2可以写成lag(Y,1)和lag(Y,2),我们仍然有Y和N两个变量输入)
至于趋势项,根据我的理解,例如,对于2012-11-01,为了运行回归,我需要前10分钟的N,即1,2,3....10,即序列号的 obs。 对于 2012-12-01,它还应该包括来自 1,2,3...10 的 N,但是,根据我的代码,它是 2,3,4...11。 但是添加常数 1 (2,3...11 vs 1,2,...10) 不会影响回归系数,对吧? 老实说,我不确定这种情况下的趋势术语,如果您了解原始作者,请随时更改它。
你可以这样做。 您的滞后 2 [A(2) 模型] 问题将由order = c(2,0,0)
,您不必明确这样做。 arima()
函数与predict()
结合使用。
library(tidyverse)
set.seed(123)
Y <- cumsum(rnorm(48))
date <- as.Date(c("2012-01-01", "2012-02-01", "2012-03-01", "2012-04-01",
"2012-05-01","2012-06-01", "2012-07-01", "2012-08-01",
"2012-09-01","2012-10-01","2012-11-01", "2012-12-01",
"2013-01-01", "2013-02-01","2013-03-01", "2013-04-01",
"2013-05-01","2013-06-01", "2013-07-01", "2013-08-01",
"2013-09-01","2013-10-01","2013-11-01", "2013-12-01",
"2014-01-01", "2014-02-01","2014-03-01", "2014-04-01",
"2014-05-01","2014-06-01", "2014-07-01", "2014-08-01",
"2014-09-01","2014-10-01","2014-11-01", "2014-12-01",
"2015-01-01", "2015-02-01", "2015-03-01", "2015-04-01",
"2015-05-01","2015-06-01", "2015-07-01", "2015-08-01",
"2015-09-01","2015-10-01","2015-11-01", "2015-12-01"))
data <- data.frame(date,Y)
library(lubridate, warn.conflicts = F)
library(slider)
data %>%
mutate(pred_roll_10 = slide_index_dbl(Y, .i = date,
~ predict(arima(.x, c(2,0,0), method = 'ML'),1)$pred[1],
.before = months(10),
.after = months(-1),
.complete = T),
shock = Y - pred_roll_10)
#> Warning in log(s2): NaNs produced
#> Warning in log(s2): NaNs produced
#> Warning in log(s2): NaNs produced
#> Warning in log(s2): NaNs produced
#> date Y pred_roll_10 shock
#> 1 2012-01-01 -0.5604756 NA NA
#> 2 2012-02-01 -0.7906531 NA NA
#> 3 2012-03-01 0.7680552 NA NA
#> 4 2012-04-01 0.8385636 NA NA
#> 5 2012-05-01 0.9678513 NA NA
#> 6 2012-06-01 2.6829163 NA NA
#> 7 2012-07-01 3.1438325 NA NA
#> 8 2012-08-01 1.8787713 NA NA
#> 9 2012-09-01 1.1919184 NA NA
#> 10 2012-10-01 0.7462564 NA NA
#> 11 2012-11-01 1.9703382 0.6951079 1.275230339
#> 12 2012-12-01 2.3301521 2.0524671 0.277684986
#> 13 2013-01-01 2.7309235 1.9333295 0.797594017
#> 14 2013-02-01 2.8416062 2.0486834 0.792922863
#> 15 2013-03-01 2.2857651 1.9959595 0.289805588
#> 16 2013-04-01 4.0726782 1.7514948 2.321183420
#> 17 2013-05-01 4.5705287 3.6469980 0.923530738
#> 18 2013-06-01 2.6039116 4.0585260 -1.454614411
#> 19 2013-07-01 3.3052675 1.6480334 1.657234048
#> 20 2013-08-01 2.8324760 2.9543635 -0.121887466
#> 21 2013-09-01 1.7646523 2.8739943 -1.109341911
#> 22 2013-10-01 1.5466774 2.7845341 -1.237856702
#> 23 2013-11-01 0.5206730 2.5894221 -2.068749114
#> 24 2013-12-01 -0.2082182 1.3652172 -1.573435497
#> 25 2014-01-01 -0.8332575 0.3654956 -1.198753080
#> 26 2014-02-01 -2.5199508 -0.5625776 -1.957373251
#> 27 2014-03-01 -1.6821638 -2.6388755 0.956711703
#> 28 2014-04-01 -1.5287907 -0.7131115 -0.815679154
#> 29 2014-05-01 -2.6669276 -1.2140023 -1.452925253
#> 30 2014-06-01 -1.4131127 -2.6421098 1.228997135
#> 31 2014-07-01 -0.9866485 -1.0140132 0.027364706
#> 32 2014-08-01 -1.2817199 -0.8209904 -0.460729511
#> 33 2014-09-01 -0.3865943 -1.2655968 0.879002504
#> 34 2014-10-01 0.4915392 -1.1977841 1.689323273
#> 35 2014-11-01 1.3131203 -0.4463373 1.759457622
#> 36 2014-12-01 2.0017605 0.9931931 1.008567426
#> 37 2015-01-01 2.5556782 1.7819117 0.773766509
#> 38 2015-02-01 2.4937665 2.3699293 0.123837184
#> 39 2015-03-01 2.1878038 2.1804620 0.007341787
#> 40 2015-04-01 1.8073328 1.5452418 0.262091026
#> 41 2015-05-01 1.1126258 1.2644697 -0.151843849
#> 42 2015-06-01 0.9047086 0.2974574 0.607251157
#> 43 2015-07-01 -0.3606878 0.7761950 -1.136882824
#> 44 2015-08-01 1.8082682 -1.1719233 2.980191448
#> 45 2015-09-01 3.0162302 1.9584189 1.057811310
#> 46 2015-10-01 1.8931216 2.5356767 -0.642555104
#> 47 2015-11-01 1.4902368 1.2115509 0.278685838
#> 48 2015-12-01 1.0235814 1.4319100 -0.408328595
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.