繁体   English   中英

单变量最小二乘回归中的多元 R 平方和调整 R 平方之间有什么区别?

[英]What is the difference between Multiple R-squared and Adjusted R-squared in a single-variate least squares regression?

有人可以向统计学天真的人解释Multiple R-squaredAdjusted R-squared之间的区别吗? 我正在做一个单变量回归分析如下:

 v.lm <- lm(epm ~ n_days, data=v)
 print(summary(v.lm))

结果:

Call:
lm(formula = epm ~ n_days, data = v)

Residuals:
    Min      1Q  Median      3Q     Max 
-693.59 -325.79   53.34  302.46  964.95 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2550.39      92.15  27.677   <2e-16 ***
n_days        -13.12       5.39  -2.433   0.0216 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 410.1 on 28 degrees of freedom
Multiple R-squared: 0.1746,     Adjusted R-squared: 0.1451 
F-statistic: 5.921 on 1 and 28 DF,  p-value: 0.0216 

调整后的 R 平方中的“调整”与变量数量和观察数量有关。

如果您不断向模型中添加变量(预测变量),R 平方将得到改进——也就是说,预测变量似乎可以解释方差——但其中一些改进可能仅仅是偶然的。 因此,调整后的 R 平方试图通过考虑比率 (N-1)/(Nk-1) 来纠正这一点,其中 N = 观察数,k = 变量(预测变量)数。

在您的情况下,这可能不是问题,因为您只有一个变量。

一些参考:

  1. 多高,R 平方?
  2. 拟合优度统计
  3. 多重回归
  4. 回复:多重回归中的“调整后的 R^2”是什么

R 平方不依赖于模型中的变量数量。 调整后的 R 平方为。

调整后的 R 平方增加了将变量添加到模型中的惩罚,这些变量与您试图解释的变量不相关。 您可以使用它来测试变量是否与您试图解释的事物相关。

调整后的 R 平方是 R 平方,添加了一些除法以使其依赖于模型中的变量数量。

调整后的 R 平方接近但不同于 R2 的值。 它不是基于解释的平方和 SSR 和总平方和 SSY,而是基于整体方差(我们通常不计算的数量),s2T = SSY/(n - 1) 和误差方差 MSE (来自方差分析表)并计算如下:调整后的 R 平方 = (s2T - MSE) / s2T。

由于添加了解释变量,这种方法为判断拟合的改进提供了更好的基础,但它没有 R2 具有的简单总结性解释。

如果我没有弄错,您应该验证调整后的 R-squared 和 R-squared 的值,如下所示:

s2T <- sum(anova(v.lm)[[2]]) / sum(anova(v.lm)[[1]])
MSE <- anova(v.lm)[[3]][2]
adj.R2 <- (s2T - MSE) / s2T

另一方面,R2 为:SSR/SSY,其中 SSR = SSY - SSE

attach(v)
SSE <- deviance(v.lm) # or SSE <- sum((epm - predict(v.lm,list(n_days)))^2)
SSY <- deviance(lm(epm ~ 1)) # or SSY <- sum((epm-mean(epm))^2)
SSR <- (SSY - SSE) # or SSR <- sum((predict(v.lm,list(n_days)) - mean(epm))^2)
R2 <- SSR / SSY 

请注意,除了预测变量的数量外,上述调整后的 R 平方公式还会针对样本大小进行调整。 一个小样本会给出一个非常大的 R 平方。

Ping Yin & Xitao Fan, J. of Experimental Education 69(2): 203-224,“估计多元回归中的 R 平方收缩”,比较了调整 r 平方的不同方法并得出结论,上面引用的常用方法是不好。 他们推荐 Olkin & Pratt 公式。

但是,我已经看到一些迹象表明,人口规模的影响比这些公式中的任何一个都大得多。 我不相信这些公式中的任何一个都足以让您比较使用非常不同的样本量(例如,2,000 对 200,000 个样本;标准公式几乎不会进行基于样本量的调整)所做的回归。 我会做一些交叉验证来检查每个样本的 r 平方。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM