原始 xgboost (Learning API) 和 sklearn XGBClassifier (Scikit-Learn API) 的区别

Question

我使用下面的 xgboots sklearn 接口来创建和训练 xgb 模型-1。

clf = xgb.XGBClassifier(n_estimators = 100, objective= 'binary:logistic',)
clf.fit(x_train, y_train,  early_stopping_rounds=10, eval_metric="auc", 
    eval_set=[(x_valid, y_valid)])

并且 xgboost 模型可以由原始 xgboost 创建为模型 2 如下：

param = {}
param['objective'] = 'binary:logistic'
param['eval_metric'] = "auc"
num_rounds = 100
xgtrain = xgb.DMatrix(x_train, label=y_train)
xgval = xgb.DMatrix(x_valid, label=y_valid)
watchlist = [(xgtrain, 'train'),(xgval, 'val')]
model = xgb.train(plst, xgtrain, num_rounds, watchlist, early_stopping_rounds=10)

我认为模型 1 和模型 2 之间的所有参数都是相同的。 但是验证分数是不同的。 模型 1 和模型 2 之间有什么区别吗？

Answer 1

据我了解，xgb 及其 sklearn 接口中的默认参数之间存在许多差异。 例如：默认 xgb 具有 eta=0.3，而另一个具有 eta=0.1。 您可以在此处查看有关每个工具的默认参数的更多信息：

https://github.com/dmlc/xgboost/blob/master/doc/parameter.md http://xgboost.readthedocs.io/en/latest/python/python_api.html#module-xgboost.sklearn

Answer 2

结果应该是一样的，因为XGBClassifier只是最终调用xgb库的sklearn的接口。

您可以尝试向两种方法添加相同的seed以获得相同的结果。 例如，在sklearn的界面中：

clf = xgb.XGBClassifier(n_estimators = 100, objective= 'binary:logistic',seed=1234)

Answer 3

就我而言，我给10对n_esetimators在sklearn这是代表XGVRegressor的num_boost_round原xgboost的和都显示同样的结果，这是线性回归虽然。 其他参数设置为默认值。

#1
param = {
    'objective': 'reg:squarederror'
}
bst = xgb.train(param, dtrain)

#2
sk_xgb = xgb.XGBRegressor(objective="reg:squarederror", n_estimators=10)

# #1 and #2 result same

我的环境是 xgboost 1.3.0 和 conda 4.9.2 上的 scikit-learn 0.24.1。

试试吧。

原始 xgboost (Learning API) 和 sklearn XGBClassifier (Scikit-Learn API) 的区别

问题描述

3 个解决方案

解决方案1
7 2016-08-22 08:08:05

解决方案2
3 2016-06-21 11:49:10

解决方案3
1 2021-02-02 06:31:18

原始 xgboost (Learning API) 和 sklearn XGBClassifier (Scikit-Learn API) 的区别

问题描述

3 个解决方案

解决方案1 7 2016-08-22 08:08:05

解决方案2 3 2016-06-21 11:49:10

解决方案3 1 2021-02-02 06:31:18

解决方案1
7 2016-08-22 08:08:05

解决方案2
3 2016-06-21 11:49:10

解决方案3
1 2021-02-02 06:31:18