[英]How to get record count/class distribution for every tree node in Spark MLlib Random Forest?
我正在使用 Spark 1.5.0 MLlib 中的隨機森林進行兩類分類。 我想獲取每個樹節點中每個類的記錄數。 有沒有辦法做到這一點? 非常感謝您的幫助!
首先,以 PMML 數據格式導出您的隨機森林模型。 然后,使用JPMML-Evaluator 庫再次對您的數據集進行評分,並捕獲每個預測的分數和節點 ID。 最后,將結果分組。
這種方法適用於任何 ML 軟件/樹模型類型組合。 例如,您可以以完全相同的方式分析 R 和 Scikit-Learn RF、GBM、XGBoost 等模型。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.