[英]predicted probability using logistic regression in R equals 1
我有一个简单的glm模型如下:
glm.fit=glm(Retention2~Email+Pay.method, data=train, family = binomial)
所有DV和IV都是具有两个级别的分类变量。
glm
的结果是:
当我计算谓词概率时,当Pay.Method为0时,概率值为1.000。语法和输出如下:
glm.fit.prob=predict(glm.fit, newdata = test2, type="response")
看来,每当pay.method ="EZ PAY"
,概率就将为0。我认为从数学pay.method ="EZ PAY"
,原因是Email的coeff
远小于拦截和Pay.method。 我想知道我的理解是否正确,如果正确,那么如何解决此问题的任何见解?
这种情况称为清除分离情况。 当您有pay.method ="EZ PAY"
时查看您的数据,则几乎观测值可能为零,或者几乎所有观测值都为1。因此,理想情况下,您不需要模型进行预测,因为您可以说结果是否为0或1模型(现在是它的真实案例还是由于缺乏数据是另一个问题)。 最好从训练数据中删除这些案例,然后训练模型(在您的案例中,使用pay.method ="EZ PAY"
删除所有观察值)。
现在为什么要这种行为。 Logistic回归最大似然估计对于处理清晰分离的情况不是很好。 要获得良好的报道,请参阅Hastie Tibshirani的统计学习书。 他们还建议使用判别分析,因为它更适合处理此类情况。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.