訓練H2O模型時忽略ID變量

Question

如果有人可以告訴我如何在創建（培訓和測試模型）時將ID變量保留為指標變量而不是預測變量，那將是非常不錯的。 我正在通過R使用H2o。感謝有人可以回應他們的想法。

Answer 1

我認為術語“指標變量”的更常用用法是指二進制預測變量（而不是唯一標識符），但這聽起來像是在詢問是否可以僅將ID列保留在數據框中而不使用它。用於預測。

這在H2O中很容易做到-您使用x參數來指示應將哪些列用作預測變量，因此，如果不使用ID列，則它將忽略它。 虹膜數據示例：

library(h2o)
h2o.init()

iris$ID <- 1:nrow(iris)  #add ID column
train <- as.h2o(iris)
fit <- h2o.gbm(x = 1:4, y = 5, training_frame = train)  #fit a GBM

通過查看變量的重要性，您可以看到未使用ID：

> h2o.varimp(fit)

Variable Importances: 
      variable relative_importance scaled_importance percentage
1  Petal.Width          258.856262          1.000000   0.563269
2 Petal.Length          195.480728          0.755171   0.425364
3  Sepal.Width            2.891532          0.011170   0.006292
4 Sepal.Length            2.332296          0.009010   0.005075

如果您根據測試集進行預測（這里我僅將訓練集用於演示目的），那么該模型已經知道也將忽略ID列。

> pred <- h2o.predict(fit, train)
> head(pred)
  predict    setosa   versicolor    virginica
1  setosa 0.9989301 0.0005656447 0.0005042210
2  setosa 0.9985183 0.0006462680 0.0008354416
3  setosa 0.9989298 0.0005663071 0.0005038929
4  setosa 0.9989310 0.0005660443 0.0005029535
5  setosa 0.9989315 0.0005649384 0.0005035886
6  setosa 0.9983457 0.0011517334 0.0005025218

訓練H2O模型時忽略ID變量

問題描述

1 個解決方案

解決方案1
2 2018-01-31 23:47:48

訓練H2O模型時忽略ID變量

問題描述

1 個解決方案

解決方案1 2 2018-01-31 23:47:48

解決方案1
2 2018-01-31 23:47:48