[英]How to understand nfold and nrounds in R's package xgboost
我正在嘗試使用 R 的包 xgboost。 但有一點讓我感到困惑。 在 xgboost 手冊中,在 xgb.cv 函數下,它說:
原始樣本被隨機划分為 n 倍大小相等的子樣本。
在nfold subsamples中,保留單個subsample作為測試模型的驗證數據,剩余nfold-1個subsample作為訓練數據。
然后將交叉驗證過程重復 n 次,每個 n 倍子樣本僅用作驗證數據一次。
這是手冊中的代碼:
data(agaricus.train, package='xgboost')
dtrain <- xgb.DMatrix(agaricus.train$data, label = agaricus.train$label)
cv <- xgb.cv(data = dtrain, nrounds = 3, nthread = 2, nfold = 5, metrics =
list("rmse","auc"),
max_depth = 3, eta = 1, objective = "binary:logistic")
print(cv)
print(cv, verbose=TRUE)
結果是:
##### xgb.cv 5-folds
call:
xgb.cv(data = dtrain, nrounds = 3, nfold = 5, metrics = list("rmse",
"auc"), nthread = 2, max_depth = 3, eta = 1, objective = "binary:logistic")
params (as set within xgb.cv):
nthread = "2", max_depth = "3", eta = "1", objective = "binary:logistic",
eval_metric = "rmse", eval_metric = "auc", silent = "1"
callbacks:
cb.print.evaluation(period = print_every_n, showsd = showsd)
cb.evaluation.log()
niter: 3
evaluation_log:
iter train_rmse_mean train_rmse_std train_auc_mean train_auc_std test_rmse_mean test_rmse_std test_auc_mean test_auc_std
1 0.1623756 0.002693092 0.9871108 1.123550e-03 0.1625222 0.009134128 0.9870954 0.0045008818
2 0.0784902 0.002413883 0.9998370 1.317346e-04 0.0791366 0.004566554 0.9997756 0.0003538184
3 0.0464588 0.005172930 0.9998942 7.315846e-05 0.0478028 0.007763252 0.9998902 0.0001347032
假設 nfold=5 和 nrounds=2。 這意味着數據被分成大小相等的 5 部分。 並且該算法將生成 2 棵樹。
我的理解是:每個子樣本必須驗證一次。 當一個子樣本被驗證時,將生成 2 棵樹。 因此,我們將有 5 組樹(一組有 2 棵樹,因為 nrounds=2)。 然后我們檢查評估指標是否變化很大。
但結果並不相同。 一個 nround 值有一行評估指標,看起來它已經包含了“交叉驗證”部分。 因此,如果“交叉驗證過程重復 n 次”,那么“每個 n 倍子樣本僅用作驗證數據一次”是怎么回事?
這些是在nrounds中每輪運行的nfold擬合測試程序的分數的平均值和標准差。 XGBoost 交叉驗證過程如下:
1請注意,我所說的“驗證”集被 XGBoost 標識為評估日志中的“測試”集
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.