[英]R gbm logistic regression
我希望使用GBM
包來進行邏輯回歸,但它的回答略微超出0-1范圍。 我已經嘗試了0-1預測( bernoulli
和adaboost
)的建議分布參數,但這實際上比使用gaussian
更糟糕。
GBM_NTREES = 150
GBM_SHRINKAGE = 0.1
GBM_DEPTH = 4
GBM_MINOBS = 50
> GBM_model <- gbm.fit(
+ x = trainDescr
+ ,y = trainClass
+ ,distribution = "gaussian"
+ ,n.trees = GBM_NTREES
+ ,shrinkage = GBM_SHRINKAGE
+ ,interaction.depth = GBM_DEPTH
+ ,n.minobsinnode = GBM_MINOBS
+ ,verbose = TRUE)
Iter TrainDeviance ValidDeviance StepSize Improve
1 0.0603 nan 0.1000 0.0019
2 0.0588 nan 0.1000 0.0016
3 0.0575 nan 0.1000 0.0013
4 0.0563 nan 0.1000 0.0011
5 0.0553 nan 0.1000 0.0010
6 0.0546 nan 0.1000 0.0008
7 0.0539 nan 0.1000 0.0007
8 0.0533 nan 0.1000 0.0006
9 0.0528 nan 0.1000 0.0005
10 0.0524 nan 0.1000 0.0004
100 0.0484 nan 0.1000 0.0000
150 0.0481 nan 0.1000 -0.0000
> prediction <- predict.gbm(object = GBM_model
+ ,newdata = testDescr
+ ,GBM_NTREES)
> hist(prediction)
> range(prediction)
[1] -0.02945224 1.00706700
伯努利:
GBM_model <- gbm.fit(
x = trainDescr
,y = trainClass
,distribution = "bernoulli"
,n.trees = GBM_NTREES
,shrinkage = GBM_SHRINKAGE
,interaction.depth = GBM_DEPTH
,n.minobsinnode = GBM_MINOBS
,verbose = TRUE)
prediction <- predict.gbm(object = GBM_model
+ ,newdata = testDescr
+ ,GBM_NTREES)
> hist(prediction)
> range(prediction)
[1] -4.699324 3.043440
並且adaboost:
GBM_model <- gbm.fit(
x = trainDescr
,y = trainClass
,distribution = "adaboost"
,n.trees = GBM_NTREES
,shrinkage = GBM_SHRINKAGE
,interaction.depth = GBM_DEPTH
,n.minobsinnode = GBM_MINOBS
,verbose = TRUE)
> prediction <- predict.gbm(object = GBM_model
+ ,newdata = testDescr
+ ,GBM_NTREES)
> hist(prediction)
> range(prediction)
[1] -3.0374228 0.9323279
我做錯了什么,我是否需要對數據進行預處理(縮放,居中),或者我是否需要進入並手動對值進行置/上限,例如:
prediction <- ifelse(prediction < 0, 0, prediction)
prediction <- ifelse(prediction > 1, 1, prediction)
來自?predict.gbm
:
返回預測向量。 默認情況下,預測的范圍為f(x)。 例如,對於伯努利損失,返回值在對數優勢等級上,對數尺度上的泊松損失,以及在對數危險等級上的考克斯。
如果type =“response”,則gbm將轉換回與結果相同的比例。 目前唯一的影響是返回bernoulli的概率和泊松的預期計數。 對於其他發行版“響應”和“鏈接”返回相同。
因此,如果使用distribution="bernoulli"
,則需要轉換預測值以將它們重新縮放為[0,1]: p <- plogis(predict.gbm(model))
。 使用distribution="gaussian"
實際上是回歸而不是分類,雖然我很驚訝預測不在[0,1]中:我的理解是gbm仍然基於樹,所以預測值不應該'能夠超出訓練數據中存在的值。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.