R-GBM | 數據使訓練好的 GBM 模型非常繁重

Question

我們正在使用 GBM 模型來訓練大約 15GB 的海量數據。 訓練后的模型大小變得巨大~17GB。 在經過訓練的模型中，我們看到與樹木和其他模型細節一起保存的數據，約占模型總大小的 96%。

訓練模型中是否有任何數據用途，特別是用於預測目的。 我們正在保存模型並在預測時重新加載模型，這需要很長時間。

Answer 1

如果您在 R 中使用gbm庫，則使用gbm.fit並設置keep.data = FALSE

label = as.numeric(iris$Species=="setosa")
trn = sample(nrow(iris),100)
fit = gbm.fit(x=iris[trn,-5],y=label[trn],shrinkage =0.1,keep.data = FALSE)

這失敗了，因為沒有數據：

predict(fit,n.trees = 10,type="response")
Error in reconstructGBMdata(object) : 
  Cannot reconstruct data from gbm object. gbm() was called with keep.data=FALSE

你可以做：

predict(fit,iris[,-5],10,type="response")
predict(fit,iris[-trn,-5],10,type="response")

R-GBM | 數據使訓練好的 GBM 模型非常繁重

問題描述

1 個解決方案

解決方案1
0 2020-02-12 09:43:04

R-GBM | 數據使訓練好的 GBM 模型非常繁重

問題描述

1 個解決方案

解決方案1 0 2020-02-12 09:43:04

解決方案1
0 2020-02-12 09:43:04