R gbm邏輯回歸

Question

我希望使用GBM包來進行邏輯回歸，但它的回答略微超出0-1范圍。 我已經嘗試了0-1預測（ bernoulli和adaboost ）的建議分布參數，但這實際上比使用gaussian更糟糕。

GBM_NTREES = 150
GBM_SHRINKAGE = 0.1
GBM_DEPTH = 4
GBM_MINOBS = 50
> GBM_model <- gbm.fit(
+ x = trainDescr 
+ ,y = trainClass 
+ ,distribution = "gaussian"
+ ,n.trees = GBM_NTREES
+ ,shrinkage = GBM_SHRINKAGE
+ ,interaction.depth = GBM_DEPTH
+ ,n.minobsinnode = GBM_MINOBS
+ ,verbose = TRUE)
Iter   TrainDeviance   ValidDeviance   StepSize   Improve
     1        0.0603             nan     0.1000    0.0019
     2        0.0588             nan     0.1000    0.0016
     3        0.0575             nan     0.1000    0.0013
     4        0.0563             nan     0.1000    0.0011
     5        0.0553             nan     0.1000    0.0010
     6        0.0546             nan     0.1000    0.0008
     7        0.0539             nan     0.1000    0.0007
     8        0.0533             nan     0.1000    0.0006
     9        0.0528             nan     0.1000    0.0005
    10        0.0524             nan     0.1000    0.0004
   100        0.0484             nan     0.1000    0.0000
   150        0.0481             nan     0.1000   -0.0000
> prediction <- predict.gbm(object = GBM_model
+ ,newdata = testDescr
+ ,GBM_NTREES)
> hist(prediction)
> range(prediction)
[1] -0.02945224  1.00706700

伯努利：

GBM_model <- gbm.fit(
x = trainDescr 
,y = trainClass 
,distribution = "bernoulli"
,n.trees = GBM_NTREES
,shrinkage = GBM_SHRINKAGE
,interaction.depth = GBM_DEPTH
,n.minobsinnode = GBM_MINOBS
,verbose = TRUE)
prediction <- predict.gbm(object = GBM_model
+ ,newdata = testDescr
+ ,GBM_NTREES)
> hist(prediction)
> range(prediction)
[1] -4.699324  3.043440

並且adaboost：

GBM_model <- gbm.fit(
x = trainDescr 
,y = trainClass 
,distribution = "adaboost"
,n.trees = GBM_NTREES
,shrinkage = GBM_SHRINKAGE
,interaction.depth = GBM_DEPTH
,n.minobsinnode = GBM_MINOBS
,verbose = TRUE)
> prediction <- predict.gbm(object = GBM_model
+ ,newdata = testDescr
+ ,GBM_NTREES)
> hist(prediction)
> range(prediction)
[1] -3.0374228  0.9323279

我做錯了什么，我是否需要對數據進行預處理（縮放，居中），或者我是否需要進入並手動對值進行置/上限，例如：

prediction <- ifelse(prediction < 0, 0, prediction)
prediction <- ifelse(prediction > 1, 1, prediction)

Answer 1

來自?predict.gbm ：

返回預測向量。 默認情況下，預測的范圍為f（x）。 例如，對於伯努利損失，返回值在對數優勢等級上，對數尺度上的泊松損失，以及在對數危險等級上的考克斯。

如果type =“response”，則gbm將轉換回與結果相同的比例。 目前唯一的影響是返回bernoulli的概率和泊松的預期計數。 對於其他發行版“響應”和“鏈接”返回相同。

因此，如果使用distribution="bernoulli" ，則需要轉換預測值以將它們重新縮放為[0,1]： p <- plogis(predict.gbm(model)) 。 使用distribution="gaussian"實際上是回歸而不是分類，雖然我很驚訝預測不在[0,1]中：我的理解是gbm仍然基於樹，所以預測值不應該'能夠超出訓練數據中存在的值。

R gbm邏輯回歸

問題描述

1 個解決方案

解決方案1
15 已采納 2011-12-07 07:50:39

R gbm邏輯回歸

問題描述

1 個解決方案

解決方案1 15 已采納 2011-12-07 07:50:39

解決方案1
15 已采納 2011-12-07 07:50:39