簡體   English   中英

如何在 hadoop 集群上運行 xgboost 進行分布式模型訓練?

[英]How one can run xgboost on hadoop cluster for distributed model training?

我正在嘗試使用 XGBoost 為上下文廣告的 1 億次展示構建一個點擊率預測模型,為了實現相同的目標,我想在 hadoop 上嘗試 XGboost,因為我擁有 HDFS 中可用的所有展示數據。

有人可以為python引用相同的工作教程嗎?

有很多方法可以做到:

  1. 如果您有一些較低級別的邏輯分組,例如某個項目部門的 CTR,並且您想為部門制作本地化模型,那么您可以使用 map reduce 類型的設置。 它將確保屬於單個部門的所有數據最終都位於單個 YARN 容器中,您可以在該數據上構建模型。 NLineInputFormat 是一個聰明的技巧,可以讓這個 map 只處理而不是基於 map reduce 的過程,這會給你顯着的速度提升。

  2. 您可以使用 XGBoost 的 Spark 版本進行分布式機器學習以獲取更多信息,請參閱http://dmlc.ml/2016/03/14/xgboost4j-portable-distributed-xgboost-in-spark-flink-and-dataflow.html

  3. 如果您也正在決定您的基礎設施,那么也可以按照此處的說明嘗試 AWS。 它不是 hadoop,而是偽分布式機器學習: https : //xgboost.readthedocs.io/en/latest/tutorials/aws_yarn.html

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM