繁体   English   中英

尽管“na.action”设置为“na.roughfix”,但缺失值错误

[英]Missing Value Error although "na.action" was set to "na.roughfix"

我想用插入符号创建一个随机森林模型。 由于训练集中缺少值,我正在寻找可能的解决方案,并从“randomForest”包中找到了“na.roughfix”选项。 如果加载了库 randomForest,则此选项可用作 caret 的 train 函数中参数“na.action”的参数。 在 train 函数中,我使用 5 倍 CV 并调整以获得最佳 ROC 值。 我这样做是为了确保其他模型之间的可比性。 我为随机森林选择的方法是“游侠”。

但是现在发生了一些奇怪的事情:当我触发 train 函数时,计算开始了,但是例如出现以下错误消息:

Fold5 的模型拟合失败:mtry= 7,splitrule=gini,min.node.size= 5 错误:列中缺少数据:...

“...”代表出现缺失值的列。 此外,无论 mtry 的折叠或值如何,总是会出现此错误消息。

我很清楚这些列中存在缺失值……这就是我使用 na.roughfix 的原因。 我也删除了 NZV,但这也无济于事。

我会很高兴得到解释甚至解决方案!

许多问候

编辑:我现在已经看到,如果我想在 train 函数中选择“na.action”参数,它不会自动出现,通常会出现。 似乎它以某种方式丢失了......也许这就是为什么插入符号不使用 na.roughfix 的原因......

编辑。 2:我猜这是问题的一部分。 train 的行为总是不同的,这取决于前面的论点。 在我的火车功能中,我使用配方包中的配方来删除 NZV。 一旦我删除了配方, na.action 参数就会再次可用。 但是,现在 preProcess 参数消失了,这意味着我不能再删除 NZV。 这真的是一团糟:-/ 是否有可能同时应用 na.action 和 preProcess 参数或任何其他解决方案来解决我的 Missing-Values-NZV 问题?

编辑。 3:由于用户误用,我尝试为您提供代码示例。 不幸的是,我无法为您提供数据,因为我的数据相对敏感 - 感谢您的理解。

首先,我创建了一个“蓝图”,然后将其交给 train 函数。 在这里,我删除了近零方差变量。

blueprint <- recipe(target ~ ., data = train_data) %>%
step_nzv(all_predictors())

在下一步中,我定义了 trainControl

train_control <- trainControl(method = "cv",
                    number = 5,
                    classProbs = TRUE,
                    summaryFunction = twoClassSummary,
                    verboseIter = TRUE)

和一个网格:

hyper_grid <- expand.grid(mtry=c(1:(ncol(train_data)-1)),
                      splitrule = c("gini", "extratrees"),
                      min.node.size = c(1, 3, 5, 7, 10))

最后,我把它放在了 train 函数中:

tuned_rf <- train(
blueprint,
data = train_data,
method = "ranger",
metric = "ROC",
trControl = train_control,
tuneGrid = hyper_grid,
na.action = na.roughfix
)

在这里,R 没有建议 na.action 参数,这意味着它不可用。 这会在开始问题中抛出错误消息。 但是,如果我删除蓝图并像这样编写模型:

tuned_rf <- train(
target ~ .,
data = train_data,
method = "ranger",
metric = "ROC",
trControl = train_control,
tuneGrid = hyper_grid,
na.action = na.roughfix
)

na.action 可用并且 na.roughfix 可以使用。 但是,现在缺少预处理。 如果我想添加参数“preProcess =”来删除 NZV,R 不建议这样做,这意味着它不再可用。 因此,我必须用 training_data X 和响应变量 y 替换公式和数据。 现在,preProcess 又可用了……但是 na.action 已经消失了,因此我不能使用 na.roughfix。

tuned_rf <- train(
X,
Y,
method = "ranger",
metric = "ROC",
trControl = train_control,
tuneGrid = hyper_grid,
preProcess = "nzv"
)

当然,我可以先识别 NZV 并手动删除它们 - 但如果我想应用进一步的步骤,整个过程就会变得复杂。

我希望,我的问题现在更容易理解了......

?randomForest::na.roughfix的帮助下,您可以在使用step_impute_medianstep_impute_mode的配方时替换中值/模式插补

您的蓝图如下所示:

library(recipes)
blueprint <- recipe(target ~ ., data = train_data) %>%
  step_nzv(all_predictors()) %>%
  step_impute_median(all_numeric()) %>%
  step_impute_mode(all_nominal())

或许也试试

blueprint <- recipe(target ~ ., data = train_data) %>%
  step_impute_median(all_numeric()) %>%
  step_impute_mode(all_nominal()) %:%
  step_nzv(all_predictors()) 

取决于step_nzv如何处理缺失值。

我还会使用其他输入函数检查性能,例如

step_impute_bag
step_impute_knn

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM