R - 解釋隨機森林的重要性

Question

作為獨立研究項目的一部分，我正在使用 R 中的隨機森林模型。 我已經擬合了我的隨機森林 model 並生成了每個預測變量對模型准確性的總體重要性。 但是，為了在研究論文中解釋我的結果，我需要了解變量對響應變量有正面影響還是負面影響。

有沒有辦法從隨機森林 model 生成這些信息？ 即我預計age會對發生手術並發症的可能性產生積極影響，但骨關節炎的存在並沒有那么大。

代碼：

surgery.bagComp = randomForest(complication~ahrq_ccs+age+asa_status+bmi+baseline_cancer+baseline_cvd+baseline_dementia+baseline_diabetes+baseline_digestive+baseline_osteoart+baseline_psych+baseline_pulmonary,data=surgery,mtry=2,importance=T,cutoff=c(0.90,0.10)) #The cutoff is the probability for each group selection, probs of 10% or higher are classified as 'Complication' occurring

surgery.bagComp #Get stats for random forest model

imp=as.data.frame(importance(surgery.bagComp)) #Analyze the importance of each variable in the model
imp = cbind(vars=rownames(imp), imp)
imp = imp[order(imp$MeanDecreaseAccuracy),]
imp$vars = factor(imp$vars, levels=imp$vars)
dotchart(imp$MeanDecreaseAccuracy, imp$vars, 
         xlim=c(0,max(imp$MeanDecreaseAccuracy)), pch=16,xlab = "Mean Decrease Accuracy",main = "Complications - Variable Importance Plot",color="black")

重要性 Plot：

任何人都可以提出的任何建議/研究領域將不勝感激。

Answer 1

為了在研究論文中解釋我的結果，我需要了解變量對響應變量有正面影響還是負面影響。

您需要執行“特征影響”分析，而不是“特征重要性”分析。

從算法上講，它是關於遍歷決策樹數據結構並觀察每個拆分對預測結果的影響。 例如，考慮拆分“age <= 40”。 左分支（條件評估為真）的可能性是否低於右分支（條件評估為假）？

特征重要性可能會提示您要尋找哪些特征，但它不能“轉換”為特征影響。

您可能會發現以下文章很有幫助：您的 model 為何預測到這一點？ （第 1 部分，共 2 部分）以及為什么您的 model 會預測？ （第 2 部分，共 2 部分）。

R - 解釋隨機森林的重要性

問題描述

1 個解決方案

解決方案1
1 已采納 2020-07-21 19:28:26

R - 解釋隨機森林的重要性

問題描述

1 個解決方案

解決方案1 1 已采納 2020-07-21 19:28:26

解決方案1
1 已采納 2020-07-21 19:28:26