繁体   English   中英

线性 model 迭代拟合并使用 varImp() 计算迭代中所有预测变量的变量重要性

[英]Linear model fitting iteratively and calculate the Variable Importance with varImp() for all predictors over the iterations

我想迭代地拟合线性 model (= LM) 并在每次迭代后使用caret::varImp() function 计算各个变量/预测变量的变量重要性。 我的数据表和天数看起来像这样( dt.train的列数总是不同,而且days也可变):

d <- 50  
## Create random data table: ##
dt.train <- data.table(date = seq(as.Date('2020-01-01'), by = '1 day', length.out = 366),
                       "DE" = rnorm(366, 35, 1), "Wind" = rnorm(366, 5000, 2), "Solar" = rnorm(366, 3, 2),
                       "Nuclear" = rnorm(366, 100, 5), "ResLoad" = rnorm(366, 200, 3),  check.names = FALSE)

我也已经有一个 function 每d天为我计算一次(这里d<-50 ):

varImportance <- function(data){
  ## Model fitting: ##
  lmModel <- stats::lm(DE ~ .-1-date, data = data)
  
  terms <- attr(lmModel$terms , "term.labels")
  varimp <- caret::varImp(lmModel)
  importance <- data[, .(date, imp = t(varimp))]
} 
## Get variable importance: ##
dt.importance <- dt.train[, varImportance(.SD), by = seq_len(nrow(dt.train)) %/% d]

现在我想要一个循环来为我构建迭代,如下所示:

1.运行: Model 拟合从“2020-01-01”到“2020-02-20”的数据(这里正好是50天)

2.运行: Model 拟合“2020-01-02”到“2020-02-21”的数据

3. 运行: Model 拟合“2020-01-03”到“2020-02-22”的数据

...等等

上次运行: Model 拟合数据从“2020-11-11”到“2020-12-31”


然后应始终将变量重要性保存在新表中以匹配 model 拟合,即:

变量重要性1. 运行:应声明为“2020-01-01”,

变量重要性2.运行:应声明为“2020-01-02”,

... 等等

变量上次运行的重要性:应声明为“2020-11-11”。

这怎么能行?

您可以使用zoo rollapply中的 rollapply。

重要的 arguments 是:

  • 设置 window 的width
  • by.column = FALSE将所有列一起传递给 model
  • aligned = 'left'以便滚动 window 从第一个数据点开始

由于rollapply适用于矩阵,它将与numeric混合的dates转换为character请参阅,因此必须单独处理date字段。

library(data.table)
library(caret)
library(zoo)

d <- 50
## Create random data table: ##
dt.train <- data.table(date = seq(as.Date('2020-01-01'), by = '1 day', length.out = 366),
                       "DE" = rnorm(366, 35, 1), "Wind" = rnorm(366, 5000, 2), "Solar" = rnorm(366, 3, 2),
                       "Nuclear" = rnorm(366, 100, 5), "ResLoad" = rnorm(366, 200, 3),  check.names = FALSE)

varImportance <- function(data){
  ## Model fitting: ##
  lmModel <- stats::lm(DE ~ .-1, data = data.table(data))
  terms <- attr(lmModel$terms , "term.labels")
  varimp <- caret::varImp(lmModel)
  importance <- t(varimp)
}

# Removing date because rollapply needs a unique type
Importance <- as.data.frame(zoo::rollapply(dt.train[,!"date"], 
                                           FUN = varImportance,
                                           width = d,
                                           by.column=FALSE,
                                           align='left')
                            )

# Adding back date
Importance <- cbind(dt.train[1:nrow(Importance),.(date)],Importance)

Importance
#>            date     Wind     Solar   Nuclear    ResLoad
#>   1: 2020-01-01 2.523219 1.0253985 0.1676970 0.80379590
#>   2: 2020-01-02 2.535376 1.3231915 0.3292608 0.78803748
#>   3: 2020-01-03 2.636790 1.5249620 0.4857825 0.85169700
#>   4: 2020-01-04 3.158113 1.1318521 0.1869724 0.24190772
#>   5: 2020-01-05 3.326954 1.0991870 0.2341736 0.09327451
#>  ---                                                   
#> 313: 2020-11-08 4.552528 0.8662639 0.8824743 0.22454327
#> 314: 2020-11-09 4.464356 0.8773634 0.8845554 0.19480862
#> 315: 2020-11-10 4.532254 0.8230178 0.7147899 0.38073588
#> 316: 2020-11-11 4.415192 0.7462676 0.8225977 0.32353235
#> 317: 2020-11-12 3.666675 0.3957351 0.6607121 0.19661800

此解决方案比您已经使用的 function 需要更多时间,因为它的计算量是块版本的 50 倍。 也无法使用data.table::frollapply AFAIK 只能使用 output 一维向量。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM