簡體 English 中英

R預測模型的預測和傾向的原因％

[英]R predictive model reason for predicitions and propensity %

原文 2016-09-21 08:29:44 1 1 r/ machine-learning/ random-forest/ prediction/ rpart

對於R和機器學習來說非常新，但我必須根據服務長度，發放的信用票據數量，錯過的交貨數量，價格上漲的數量等多個變量進行預測客戶流失的項目。

我正在使用rpart和randomforest並且有一個數據集，每個數據集都有一個流失預測。 我能夠產生一個置信矩陣，看看哪些是重要的指標。 但是，輸出的目的是將銷售團隊作為“風險”的客戶列表發送給銷售團隊。

對此我真正重要的是將信心/傾向/可能性％添加到客戶流失中，這樣我就可以按風險順序排列，但是，有沒有辦法為每個客戶附加類別/摘要/理由，說明為什么他們這樣做預計客戶流失 - 即客戶abc - 價格上漲的高分，所以我們需要小心定價。 客戶拒絕交付錯誤 - 需要修復我們的服務？

非常感謝您的幫助。

如果要預測流失的概率，可以訓練邏輯回歸模型並使用模型預測流失概率。 您還可以找出導致客戶流失的重要預測變量（參見http://www.duplication.net.au/ANZMAC09/papers/ANZMAC2009-678.pdf ），您可以使用anova來查找差異由重要的預定義者解釋。
如果您想找到發生特定客戶流失的原因，您可以學習決策樹（CART / rpart）模型，然后在學習的決策樹中遵循從客戶所屬的根節點到葉節點的路徑。
最后，randomForest集合分類器可用於根據OOB誤差估計找到最重要的流失預測器。