簡體   English   中英

R - 解釋隨機森林的重要性

[英]R - Interpreting Random Forest Importance

作為獨立研究項目的一部分,我正在使用 R 中的隨機森林模型。 我已經擬合了我的隨機森林 model 並生成了每個預測變量對模型准確性的總體重要性。 但是,為了在研究論文中解釋我的結果,我需要了解變量對響應變量有正面影響還是負面影響。

有沒有辦法從隨機森林 model 生成這些信息? 即我預計age會對發生手術並發症的可能性產生積極影響,但骨關節炎的存在並沒有那么大。

代碼:

surgery.bagComp = randomForest(complication~ahrq_ccs+age+asa_status+bmi+baseline_cancer+baseline_cvd+baseline_dementia+baseline_diabetes+baseline_digestive+baseline_osteoart+baseline_psych+baseline_pulmonary,data=surgery,mtry=2,importance=T,cutoff=c(0.90,0.10)) #The cutoff is the probability for each group selection, probs of 10% or higher are classified as 'Complication' occurring

surgery.bagComp #Get stats for random forest model

imp=as.data.frame(importance(surgery.bagComp)) #Analyze the importance of each variable in the model
imp = cbind(vars=rownames(imp), imp)
imp = imp[order(imp$MeanDecreaseAccuracy),]
imp$vars = factor(imp$vars, levels=imp$vars)
dotchart(imp$MeanDecreaseAccuracy, imp$vars, 
         xlim=c(0,max(imp$MeanDecreaseAccuracy)), pch=16,xlab = "Mean Decrease Accuracy",main = "Complications - Variable Importance Plot",color="black")

重要性 Plot: dom

任何人都可以提出的任何建議/研究領域將不勝感激。

為了在研究論文中解釋我的結果,我需要了解變量對響應變量有正面影響還是負面影響。

您需要執行“特征影響”分析,而不是“特征重要性”分析。

從算法上講,它是關於遍歷決策樹數據結構並觀察每個拆分對預測結果的影響。 例如,考慮拆分“age <= 40”。 左分支(條件評估為真)的可能性是否低於右分支(條件評估為假)?

特征重要性可能會提示您要尋找哪些特征,但它不能“轉換”為特征影響。

您可能會發現以下文章很有幫助: 您的 model 為何預測到這一點? (第 1 部分,共 2 部分)以及為什么您的 model 會預測? (第 2 部分,共 2 部分)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM