簡體   English   中英

單變量最小二乘回歸中的多元 R 平方和調整 R 平方之間有什么區別?

[英]What is the difference between Multiple R-squared and Adjusted R-squared in a single-variate least squares regression?

有人可以向統計學天真的人解釋Multiple R-squaredAdjusted R-squared之間的區別嗎? 我正在做一個單變量回歸分析如下:

 v.lm <- lm(epm ~ n_days, data=v)
 print(summary(v.lm))

結果:

Call:
lm(formula = epm ~ n_days, data = v)

Residuals:
    Min      1Q  Median      3Q     Max 
-693.59 -325.79   53.34  302.46  964.95 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2550.39      92.15  27.677   <2e-16 ***
n_days        -13.12       5.39  -2.433   0.0216 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 410.1 on 28 degrees of freedom
Multiple R-squared: 0.1746,     Adjusted R-squared: 0.1451 
F-statistic: 5.921 on 1 and 28 DF,  p-value: 0.0216 

調整后的 R 平方中的“調整”與變量數量和觀察數量有關。

如果您不斷向模型中添加變量(預測變量),R 平方將得到改進——也就是說,預測變量似乎可以解釋方差——但其中一些改進可能僅僅是偶然的。 因此,調整后的 R 平方試圖通過考慮比率 (N-1)/(Nk-1) 來糾正這一點,其中 N = 觀察數,k = 變量(預測變量)數。

在您的情況下,這可能不是問題,因為您只有一個變量。

一些參考:

  1. 多高,R 平方?
  2. 擬合優度統計
  3. 多重回歸
  4. 回復:多重回歸中的“調整后的 R^2”是什么

R 平方不依賴於模型中的變量數量。 調整后的 R 平方為。

調整后的 R 平方增加了將變量添加到模型中的懲罰,這些變量與您試圖解釋的變量不相關。 您可以使用它來測試變量是否與您試圖解釋的事物相關。

調整后的 R 平方是 R 平方,添加了一些除法以使其依賴於模型中的變量數量。

調整后的 R 平方接近但不同於 R2 的值。 它不是基於解釋的平方和 SSR 和總平方和 SSY,而是基於整體方差(我們通常不計算的數量),s2T = SSY/(n - 1) 和誤差方差 MSE (來自方差分析表)並計算如下:調整后的 R 平方 = (s2T - MSE) / s2T。

由於添加了解釋變量,這種方法為判斷擬合的改進提供了更好的基礎,但它沒有 R2 具有的簡單總結性解釋。

如果我沒有弄錯,您應該驗證調整后的 R-squared 和 R-squared 的值,如下所示:

s2T <- sum(anova(v.lm)[[2]]) / sum(anova(v.lm)[[1]])
MSE <- anova(v.lm)[[3]][2]
adj.R2 <- (s2T - MSE) / s2T

另一方面,R2 為:SSR/SSY,其中 SSR = SSY - SSE

attach(v)
SSE <- deviance(v.lm) # or SSE <- sum((epm - predict(v.lm,list(n_days)))^2)
SSY <- deviance(lm(epm ~ 1)) # or SSY <- sum((epm-mean(epm))^2)
SSR <- (SSY - SSE) # or SSR <- sum((predict(v.lm,list(n_days)) - mean(epm))^2)
R2 <- SSR / SSY 

請注意,除了預測變量的數量外,上述調整后的 R 平方公式還會針對樣本大小進行調整。 一個小樣本會給出一個非常大的 R 平方。

Ping Yin & Xitao Fan, J. of Experimental Education 69(2): 203-224,“估計多元回歸中的 R 平方收縮”,比較了調整 r 平方的不同方法並得出結論,上面引用的常用方法是不好。 他們推薦 Olkin & Pratt 公式。

但是,我已經看到一些跡象表明,人口規模的影響比這些公式中的任何一個都大得多。 我不相信這些公式中的任何一個都足以讓您比較使用非常不同的樣本量(例如,2,000 對 200,000 個樣本;標准公式幾乎不會進行基於樣本量的調整)所做的回歸。 我會做一些交叉驗證來檢查每個樣本的 r 平方。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM