[英]Ignore ID variable when training an H2O model
如果有人可以告訴我如何在創建(培訓和測試模型)時將ID變量保留為指標變量而不是預測變量,那將是非常不錯的。 我正在通過R使用H2o。感謝有人可以回應他們的想法。
我認為術語“指標變量”的更常用用法是指二進制預測變量(而不是唯一標識符),但這聽起來像是在詢問是否可以僅將ID列保留在數據框中而不使用它。用於預測。
這在H2O中很容易做到-您使用x
參數來指示應將哪些列用作預測變量,因此,如果不使用ID列,則它將忽略它。 虹膜數據示例:
library(h2o)
h2o.init()
iris$ID <- 1:nrow(iris) #add ID column
train <- as.h2o(iris)
fit <- h2o.gbm(x = 1:4, y = 5, training_frame = train) #fit a GBM
通過查看變量的重要性,您可以看到未使用ID:
> h2o.varimp(fit)
Variable Importances:
variable relative_importance scaled_importance percentage
1 Petal.Width 258.856262 1.000000 0.563269
2 Petal.Length 195.480728 0.755171 0.425364
3 Sepal.Width 2.891532 0.011170 0.006292
4 Sepal.Length 2.332296 0.009010 0.005075
如果您根據測試集進行預測(這里我僅將訓練集用於演示目的),那么該模型已經知道也將忽略ID列。
> pred <- h2o.predict(fit, train)
> head(pred)
predict setosa versicolor virginica
1 setosa 0.9989301 0.0005656447 0.0005042210
2 setosa 0.9985183 0.0006462680 0.0008354416
3 setosa 0.9989298 0.0005663071 0.0005038929
4 setosa 0.9989310 0.0005660443 0.0005029535
5 setosa 0.9989315 0.0005649384 0.0005035886
6 setosa 0.9983457 0.0011517334 0.0005025218
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.