簡體   English   中英

XGBoost 訓練時間好像太長了

[英]XGBoost training time seems to be too long

我正在嘗試使用 xgboost 包在 Python 中訓練 XGBoost 分類器。 我在分類器的所有參數上使用默認值,我的訓練集有大約 16,000 個元素和每個元素的 180,000 個特征。 我沒有使用 gpu 來訓練模型,但是,訓練過程已經花費了五個多小時並且仍在繼續。 我有 32GB 內存和 6 核 Intel I7。 我想知道這是否是用我擁有的數據量訓練這個分類器的正常時間,因為我聽說有人在幾分鍾內訓練模型。

如果關注訓練時間,則可以將樹生長策略tree_methodhist ,這是基於直方圖的方法。 對於 GPU,它應該設置為gpu_hist 您可以在此處找到有關其 xgboost 實現的更多詳細信息http://arxiv.org/abs/1603.02754

這是在不影響解決方案質量的情況下實現超快速訓練的秘訣。 事實上,基於 GPU 的訓練甚至 lightGBM 等都依賴於基於直方圖的技術來進行更快的訓練和隨后的迭代/實驗,這在時間受限的 kaggle 類型比賽中非常重要。 hist可能會將訓練時間減少一半或更少, gpu_hist gpu 上的gpu_hist可能需要幾分鍾。

PS:我建議通過刪除相關/等級相關的特征來降低數據的維度(16k X 180k),這不僅會進一步改善您的訓練時間,還可以改善模型性能。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM