簡體 English 中英

如何獲取 Spark MLlib 隨機森林中每個樹節點的記錄計數/類分布？

[英]How to get record count/class distribution for every tree node in Spark MLlib Random Forest?

原文 2016-03-11 05:00:24 8 2 apache-spark/ tree/ nodes/ random-forest/ apache-spark-mllib

我正在使用 Spark 1.5.0 MLlib 中的隨機森林進行兩類分類。 我想獲取每個樹節點中每個類的記錄數。 有沒有辦法做到這一點？ 非常感謝您的幫助！

2 個解決方案

不，或者至少不是通過公開的 API。 您可以使用tree()獲取隨機樹模型中的所有樹。 在每棵樹中，您都可以獲得從topNode()開始的所有節點，並且在每個節點中，您可以獲得InformationGainStats ，它會告訴您有關信息增益和雜質的信息，但不會存儲拆分后的元素數量。 不確定在一般情況下是否有必要，畢竟通常您不關心新子集有多大，而是在您的類方面有多混亂。

如果您需要概率，也許Predict類對您來說就足夠了？

首先，以 PMML 數據格式導出您的隨機森林模型。 然后，使用JPMML-Evaluator 庫再次對您的數據集進行評分，並捕獲每個預測的分數和節點 ID。 最后，將結果分組。

這種方法適用於任何 ML 軟件/樹模型類型組合。 例如，您可以以完全相同的方式分析 R 和 Scikit-Learn RF、GBM、XGBoost 等模型。

Spark 1.5.1，MLLib隨機森林概率

[英]Spark 1.5.1, MLLib Random Forest Probability

有沒有辦法可視化Spark mllib隨機森林模型？

[英]is there a way to visualize Spark mllib Random Forest Model?

如何從Spark ML隨機森林中獲取與該類對應的概率

[英]How to get probabilities corresponding to the class from Spark ML random forest

PySpark和MLLib：隨機森林預測的類概率

[英]PySpark & MLLib: Class Probabilities of Random Forest Predictions

可以在Spark MLlib隨機森林培訓中使用樣品重量嗎？

[英]Can sample weight be used in Spark MLlib Random Forest training?

Spark python MLlib隨機森林內存不足錯誤

[英]Spark python MLlib Random Forest out of memory error

Spark MLLIB：為隨機森林回歸計算類似stddev的值

[英]Spark MLLIB : Compute stddev-like value for Random Forest Regression

使用Spark MLlib Scala API按組運行3000+隨機森林模型

[英]Run 3000+ Random Forest Models By Group Using Spark MLlib Scala API

Spark隨機森林分類器-將標簽獲取為String

[英]spark random forest classifier - get labels as String

Spark MLlib LDA，如何推斷新的未見文檔的主題分布？

[英]Spark MLlib LDA, how to infer the topics distribution of a new unseen document?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Spark 1.5.1，MLLib隨機森林概率有沒有辦法可視化Spark mllib隨機森林模型？如何從Spark ML隨機森林中獲取與該類對應的概率 PySpark和MLLib：隨機森林預測的類概率可以在Spark MLlib隨機森林培訓中使用樣品重量嗎？ Spark python MLlib隨機森林內存不足錯誤 Spark MLLIB：為隨機森林回歸計算類似stddev的值使用Spark MLlib Scala API按組運行3000+隨機森林模型 Spark隨機森林分類器-將標簽獲取為String Spark MLlib LDA，如何推斷新的未見文檔的主題分布？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM