簡體 English 中英

將來自兩個隨機森林模型的樹模型合並到R中H2O的一個隨機森林模型中

[英]Merging Tree Models from two random forest models into one random forest model at H2O in R

原文 2018-04-16 21:17:04 2 2 r/ machine-learning/ parallel-processing/ h2o

我對機器學習海洋比較陌生，如果我的一些問題非常基本，請原諒。

當前情況：總體目標是嘗試改進在超級計算機集群上運行的h2o包的一些代碼。 但是，由於數據太大以至於具有h2o的單個節點實際上需要超過一天，因此，我們決定使用多個節點來運行模型。 我提出了一個想法：

（1）分配每個節點構建（nTree / num_node）樹並保存到模型中;

（2）在每個節點的集群上運行（nTree / num_node）森林中的樹數;

（3）將樹木合並，改造原始森林，平均測量結果。

我后來意識到這可能有風險。 但我找不到實際的支持或反對聲明，因為我不是機器學習的重點程序員。

問題：

如果這種處理隨機森林的方式會導致一些風險，請參考我的鏈接，以便我可以基本了解為什么這是不對的。
如果這種方式實際上是一種“好”的方式。 我應該怎么做才能合並樹木，我可以借用一個包裹或方法嗎？
如果這實際上是一個已解決的問題，請參考我鏈接，我可能搜索了錯誤的關鍵字，謝謝！

我可以在這里介紹的真實數字示例是：

我有一個80k行和2k列的隨機森林任務，並希望樹的數量為64.我所做的是在每個節點上運行16個樹與整個數據集一起運行，並且四個節點中的每一個都提供一個RF模型。 我現在正在嘗試將每個模型中的樹合並到這個大型RF模型中並平均測量值（來自這四個模型中的每一個）。

2 個解決方案

無需合並模型。 與增強方法不同，隨機森林中的每棵樹都是獨立生長的（只是在每個節點上開始射頻之前不要設置相同的種子！）。

你基本上是在做隨機森林自己做的事情，即增長X個獨立的樹，然后平均投票。 許多軟件包提供了指定核心或線程數量的選項，以便利用RF的這一特性。

在您的情況下，由於每個節點擁有相同數量的樹，因此您將獲得4個“模型”，但這些只是16個樹的集合。 為了使用它，我只是將4個模型分開，當你想要預測時，平均4個模型中的每個模型的預測。 假設您不止一次這樣做，您可以編寫一個小的包裝函數來預測4個模型並平均輸出。

10,000行乘1,000列不會過大，不應花那么長時間來訓練RF模型。

聽起來好像發生了意想不到的事情。

如果您知道自己在做什么，可以嘗試平均模型，但我不認為在這種情況下應該是必要的。

R上的H2o隨機森林圖

[英]H2o random forest plot on r

h2o的MOJO中用於隨機森林的輔助樹數據

[英]Auxiliary tree data in h2o's MOJOs for random forest

使用H2O在R中平衡隨機森林

[英]Balanced random forest in R using H2O

水隨機森林的置信區間

[英]Confidence Interval for h2o Random Forest

H2O隨機森林掛牌完成

[英]H2O Random Forest Hangs on Completion

如何從 H2O 隨機森林中獲得一棵樹？

[英]How can I get a single tree from an H2O Random Forest?

R：Tidymodels：是否可以在整潔的模型中使用 plot 隨機森林 model 的樹木？

[英]R: Tidymodels: Is it possible to plot the trees for a random forest model in tidy models?

在h2o（隨機森林）中合奏-多項式分布

[英]Ensemble in h2o (random forest) -multinomial distribution

如何在H2O隨機森林中指定分類

[英]How do I specify classification in h2o random forest

h2o隨機森林解釋的誤差度量

[英]Error metric of h2o random forest explanation

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 R上的H2o隨機森林圖 h2o的MOJO中用於隨機森林的輔助樹數據使用H2O在R中平衡隨機森林水隨機森林的置信區間 H2O隨機森林掛牌完成如何從 H2O 隨機森林中獲得一棵樹？ R：Tidymodels：是否可以在整潔的模型中使用 plot 隨機森林 model 的樹木？在h2o（隨機森林）中合奏-多項式分布如何在H2O隨機森林中指定分類 h2o隨機森林解釋的誤差度量

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM