簡體 English 中英

如何在 hadoop 集群上運行 xgboost 進行分布式模型訓練？

[英]How one can run xgboost on hadoop cluster for distributed model training?

原文 2016-09-29 10:03:27 7 1 python/ hadoop/ machine-learning/ xgboost

我正在嘗試使用 XGBoost 為上下文廣告的 1 億次展示構建一個點擊率預測模型，為了實現相同的目標，我想在 hadoop 上嘗試 XGboost，因為我擁有 HDFS 中可用的所有展示數據。

有人可以為python引用相同的工作教程嗎？

1 個解決方案

有很多方法可以做到：

如果您有一些較低級別的邏輯分組，例如某個項目部門的 CTR，並且您想為部門制作本地化模型，那么您可以使用 map reduce 類型的設置。 它將確保屬於單個部門的所有數據最終都位於單個 YARN 容器中，您可以在該數據上構建模型。 NLineInputFormat 是一個聰明的技巧，可以讓這個 map 只處理而不是基於 map reduce 的過程，這會給你顯着的速度提升。
您可以使用 XGBoost 的 Spark 版本進行分布式機器學習以獲取更多信息，請參閱http://dmlc.ml/2016/03/14/xgboost4j-portable-distributed-xgboost-in-spark-flink-and-dataflow.html
如果您也正在決定您的基礎設施，那么也可以按照此處的說明嘗試 AWS。 它不是 hadoop，而是偽分布式機器學習： https : //xgboost.readthedocs.io/en/latest/tutorials/aws_yarn.html

如何在訓練 XGBoost 模型時使用 GPU？

[英]How to use GPU while training XGBoost model?

如何以分布式和批處理方式使用 xgboost.dask 和 gpu 到 model 一個非常大的數據集？

[英]How can I use xgboost.dask with gpu to model a very large dataset in both a distributed and batched manner?

如何為 xgboost 實施增量訓練？

[英]How can I implement incremental training for xgboost?

如何使用Hadoop Streaming在本地Hadoop集群中運行MRJob？

[英]How to run a MRJob in a local Hadoop Cluster with Hadoop Streaming?

為什么在子進程中訓練這個 xgboost model 沒有終止？

[英]Why is training this xgboost model in a subprocess not terminating?

python xgboost 繼續訓練現有的 model

[英]python xgboost continue training on existing model

無法使用 XGBoost 模型（版本 1.5.0）運行 docker 映像

[英]Can't run docker image with XGBoost model(version 1.5.0)

hadoop集群：映射任務僅在一台計算機上運行，而不是全部運行

[英]hadoop cluster: map task run only on one machine and not all

如何在單個線程中運行dask.distributed集群？

[英]How do I run a dask.distributed cluster in a single thread?

如何加載已經訓練好的XGBoost模型以在新數據集上運行？

[英]How to load an already trained XGBoost model to run on a new dataset?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何在訓練 XGBoost 模型時使用 GPU？如何以分布式和批處理方式使用 xgboost.dask 和 gpu 到 model 一個非常大的數據集？如何為 xgboost 實施增量訓練？如何使用Hadoop Streaming在本地Hadoop集群中運行MRJob？為什么在子進程中訓練這個 xgboost model 沒有終止？ python xgboost 繼續訓練現有的 model 無法使用 XGBoost 模型（版本 1.5.0）運行 docker 映像 hadoop集群：映射任務僅在一台計算機上運行，而不是全部運行如何在單個線程中運行dask.distributed集群？如何加載已經訓練好的XGBoost模型以在新數據集上運行？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM