繁体   English   中英

评估逻辑回归中的预测器性能(glm、glmnet R)

[英]Assessing predictor performance in logistic regression (glm, glmnet R)

我想评估逻辑回归模型 (mymodel1) 中每个预测器的性能。 这些是预测变量的显着性分数,所有值都 < .05。 这意味着所有预测变量都是显着的(同样重要??)。 我如何衡量从每个人获得的重要性/信息?

z <- summary(mymodel1)$coefficients/summary(mymodel1)$standard.errors
p <- (1 - pnorm(abs(z), 0, 1)) * 2
p
(Intercept)        alpha         beta gamma theta
2 0.000000e+00 0.000000e+00 0.000000e+00     0     0
3 0.000000e+00 0.000000e+00 0.000000e+00     0     0
4 2.644718e-05 4.905187e-11 7.112932e-06     0     0
5 0.000000e+00 0.000000e+00 0.000000e+00     0     0
6 0.000000e+00 0.000000e+00 0.000000e+00     0     0

围绕这个话题有很多争论。 对一种方法投票而不是另一种方法真的很难。 尽管如此,我还是列出了一些用于评估单个预测变量贡献的方法。

  1. 标准化回归系数

绝对值越高贡献越大。 我也看到了以下表格

= 标准化 Co.Eff 的绝对值/总和(所有标准化 Co.Eff 的绝对值)

  1. 卡方统计

卡方值越高,贡献越大。 但是,卡方值并不能说明大小。

  1. 对数似然值

您使用单个预测器运行回归并将对数似然值 (-2LL) 与完整模型对数似然进行比较。

注意:这些都是近似值,我还没有遇到一种严格的方法来计算预测变量的贡献

为了确定预测器性能(也称为特征重要性),您可以考虑在样本中混洗每个预测器变量的值(基本上创建一个随机变量)...

  1. 在样本中混洗或随机化一个预测变量
  2. 创建模型并使用适当的指标评分……如果您可以使用不同的交叉折叠迭代创建多个模型来构建评分分布,则最好。 记录分数。
  3. 对每个预测变量重复过程(步骤 1 和 2)。
  4. 使用统计数据查看和/或测量导致模型性能下降幅度最大的变量。

本质上,您刚刚通过“删除”它来确定为模型贡献最多信息的变量。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM