具有分類預測變量和交互作用的二項式邏輯回歸（二項式族參數和p值差異）

Question

當我在glm模型中使用交互加上family =二項式參數時，以及當我忽略它時，我對重要性和重要性差異存在疑問。 我對邏輯回歸非常陌生，過去只做過更簡單的線性回歸。

我有一個樹木生長年輪的觀測數據集，其中有兩個分類解釋變量 （處理和原產地 ）。 “處理”變量是具有四個級別（控制，第一次干旱，第二次干旱和兩次干旱）的實驗性干旱處理。 Origin變量具有三個級別，指的是樹的原點（給定的代碼顏色表示不同的原點為Red，Yellow和Blue）。 我的觀察是是否存在年輪（ 1 =存在年輪，0 =不存在年輪 ）。

就我而言，我對“治療”的效果，“起源”的效果以及“治療”與“起源”的可能相互作用感興趣。

已經提出，二項式邏輯回歸將是分析該數據集的好方法。 （希望這是適當的？也許有更好的方法？）

我有n = 5（按原產地處理的每種組合有5個觀察值。因此，例如，對對照處理藍起源樹的生長環有5個觀察值，對於對照處理黃起源樹的生長環有5個觀察值，等等）。數據集中有60個觀測到的年輪。

在R中，我使用的代碼是glm（）函數。 我將其設置如下：growthring_model <-glm（生長+來源+治療：來源，數據= growthringdata，家庭=二項式（link =“ logit”））

我已經考慮了我的解釋變量，以使Control處理和Blue origin樹成為我的參考。

我注意到的是，當我將“ family = binomial”參數排除在代碼外時，它給了我p值，在給定數據結果的情況下，我可以合理地期望它。 但是，當我添加“ family = binomial”參數時，p值是1或非常接近1（例如1、0.98、0.99）。 這似乎很奇怪。 我可以看到它的重要性不高，但是鑒於實際數據，這些值都非常接近1，這使我感到懷疑。 如果我在不使用“ family = binomial”參數的情況下運行模型，則得到的p值似乎更有意義（即使它們仍然相對較高/無關緊要）。

有人可以幫助我理解二項式參數如何極大地改變我的結果嗎？ （我知道它指的是分布，即我的觀察值為1或0）在模型中它到底發生了什么變化？ 這是樣本量低的結果嗎？ 我的代碼中有東西嗎？ 也許那些非常高的值是正確的（還是不正確？）？

這是從我的模型摘要中讀出的，其中存在二項式參數：調用：glm（公式= Growthring〜處理+來源+處理：來源，家庭= Binomial（鏈接=“ logit”），數據= growthringdata）

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-1.79412  -0.00005  -0.00005  -0.00005   1.79412  

Coefficients:
                                       Estimate Std. Error z value Pr(>|z|)
(Intercept)                          -2.057e+01  7.929e+03  -0.003    0.998
TreatmentFirst Drought               -9.931e-11  1.121e+04   0.000    1.000
TreatmentSecond Drought               1.918e+01  7.929e+03   0.002    0.998
TreatmentTwo Droughts                -1.085e-10  1.121e+04   0.000    1.000
OriginYellow                          1.918e+01  7.929e+03   0.002    0.998
OriginRed                            -1.045e-10  1.121e+04   0.000    1.000
TreatmentFirst Drought:OriginYellow  -1.918e+01  1.373e+04  -0.001    0.999
TreatmentSecond Drought:OriginYellow -1.739e+01  7.929e+03  -0.002    0.998
TreatmentTwo Droughts:OriginYellow   -1.918e+01  1.373e+04  -0.001    0.999
TreatmentFirst Drought:OriginRed      1.038e-10  1.586e+04   0.000    1.000
TreatmentSecond Drought:OriginRed     2.773e+00  1.121e+04   0.000    1.000
TreatmentTwo Droughts:OriginRed       2.016e+01  1.373e+04   0.001    0.999

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 57.169  on 59  degrees of freedom
Residual deviance: 28.472  on 48  degrees of freedom
AIC: 52.472

Number of Fisher Scoring iterations: 19

這是沒有二項式參數的我的模型摘要的讀數：調用：glm（公式= Growthring〜治療+來源+ Treatment：Origin，數據= growthringdata）

Deviance Residuals: 
Min      1Q  Median      3Q     Max  
-0.8     0.0     0.0     0.0     0.8  

Coefficients:
                                   Estimate Std. Error t value Pr(>|t|)  
(Intercept)                          -4.278e-17  1.414e-01   0.000           1.0000  
TreatmentFirst Drought                3.145e-16  2.000e-01   0.000   1.0000  
TreatmentSecond Drought               2.000e-01  2.000e-01   1.000   0.3223  
TreatmentTwo Droughts                 1.152e-16  2.000e-01   0.000   1.0000  
OriginYellow                          2.000e-01  2.000e-01   1.000   0.3223  
OriginRed                             6.879e-17  2.000e-01   0.000   1.0000  
TreatmentFirst Drought:OriginYellow  -2.000e-01  2.828e-01  -0.707   0.4829  
TreatmentSecond Drought:OriginYellow  2.000e-01  2.828e-01   0.707   0.4829  
TreatmentTwo Droughts:OriginYellow   -2.000e-01  2.828e-01  -0.707   0.4829  
TreatmentFirst Drought:OriginRed     -3.243e-16  2.828e-01   0.000   1.0000  
TreatmentSecond Drought:OriginRed     6.000e-01  2.828e-01   2.121   0.0391 *
TreatmentTwo Droughts:OriginRed       4.000e-01  2.828e-01   1.414   0.1638  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for gaussian family taken to be 0.1)

    Null deviance: 8.9833  on 59  degrees of freedom
Residual deviance: 4.8000  on 48  degrees of freedom
AIC: 44.729

Number of Fisher Scoring iterations: 2

（對於可能出現的問題，我事先表示歉意。我嘗試閱讀邏輯回歸並嘗試遵循一些示例。但是，我一直在努力尋找針對自己特殊情況的答案）

非常感謝。

Answer 1

與上述Gregor的評論一致，可以將其解釋為編程問題。 如果不考慮family = binomial ，則函數glm()將采用默認的family = gaussian ，這意味着一個標識鏈接函數並假定存在正常的同調誤差。 另請參見?glm 。

正常和/或同方誤差的假設在這里可能會被違反。 因此，此處顯示的第二個模型的標准誤差和p值可能不正確。

具有分類預測變量和交互作用的二項式邏輯回歸（二項式族參數和p值差異）

問題描述

1 個解決方案

解決方案1
0 2019-08-04 13:24:25

具有分類預測變量和交互作用的二項式邏輯回歸（二項式族參數和p值差異）

問題描述

1 個解決方案

解決方案1 0 2019-08-04 13:24:25

解決方案1
0 2019-08-04 13:24:25