簡體   English   中英

具有分類預測變量和交互作用的二項式邏輯回歸(二項式族參數和p值差異)

[英]Binomial logistic regression with categorical predictors and interaction (binomial family argument and p-value differences)

當我在glm模型中使用交互加上family =二項式參數時,以及當我忽略它時,我對重要性和重要性差異存在疑問。 我對邏輯回歸非常陌生,過去只做過更簡單的線性回歸。

我有一個樹木生長年輪觀測數據集,其中有兩個分類解釋變量處理原產地 )。 “處理”變量是具有四個級別(控制,第一次干旱,第二次干旱和兩次干旱)的實驗性干旱處理。 Origin變量具有三個級別,指的是樹的原點(給定的代碼顏色表示不同的原點為Red,Yellow和Blue)。 我的觀察是是否存在年輪( 1 =存在年輪,0 =不存在年輪 )。

就我而言,我對“治療”的效果,“起源”的效果以及“治療”與“起源”的可能相互作用感興趣。

已經提出,二項式邏輯回歸將是分析該數據集的好方法。 (希望這是適當的?也許有更好的方法?)

我有n = 5(按原產地處理的每種組合有5個觀察值。因此,例如,對對照處理藍起源樹的生長環有5個觀察值,對於對照處理黃起源樹的生長環有5個觀察值,等等)。數據集中有60個觀測到的年輪。

在R中,我使用的代碼是glm()函數。 我將其設置如下:growthring_model <-glm(生長+來源+治療:來源,數據= growthringdata,家庭=二項式(link =“ logit”))

我已經考慮了我的解釋變量,以使Control處理和Blue origin樹成為我的參考。

我注意到的是,當我將“ family = binomial”參數排除在代碼外時,它給了我p值,在給定數據結果的情況下,我可以合理地期望它。 但是,當我添加“ family = binomial”參數時,p值是1或非常接近1(例如1、0.98、0.99)。 這似乎很奇怪。 我可以看到它的重要性不高,但是鑒於實際數據,這些值都非常接近1,這使我感到懷疑。 如果我在不使用“ family = binomial”參數的情況下運行模型,則得到的p值似乎更有意義(即使它們仍然相對較高/無關緊要)。

有人可以幫助我理解二項式參數如何極大地改變我的結果嗎? (我知道它指的是分布,即我的觀察值為1或0)在模型中它到底發生了什么變化? 這是樣本量低的結果嗎? 我的代碼中有東西嗎? 也許那些非常高的值是正確的(還是不正確?)?

這是從我的模型摘要中讀出的,其中存在二項式參數:調用:glm(公式= Growthring〜處理+來源+處理:來源,家庭= Binomial(鏈接=“ logit”),數據= growthringdata)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-1.79412  -0.00005  -0.00005  -0.00005   1.79412  

Coefficients:
                                       Estimate Std. Error z value Pr(>|z|)
(Intercept)                          -2.057e+01  7.929e+03  -0.003    0.998
TreatmentFirst Drought               -9.931e-11  1.121e+04   0.000    1.000
TreatmentSecond Drought               1.918e+01  7.929e+03   0.002    0.998
TreatmentTwo Droughts                -1.085e-10  1.121e+04   0.000    1.000
OriginYellow                          1.918e+01  7.929e+03   0.002    0.998
OriginRed                            -1.045e-10  1.121e+04   0.000    1.000
TreatmentFirst Drought:OriginYellow  -1.918e+01  1.373e+04  -0.001    0.999
TreatmentSecond Drought:OriginYellow -1.739e+01  7.929e+03  -0.002    0.998
TreatmentTwo Droughts:OriginYellow   -1.918e+01  1.373e+04  -0.001    0.999
TreatmentFirst Drought:OriginRed      1.038e-10  1.586e+04   0.000    1.000
TreatmentSecond Drought:OriginRed     2.773e+00  1.121e+04   0.000    1.000
TreatmentTwo Droughts:OriginRed       2.016e+01  1.373e+04   0.001    0.999

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 57.169  on 59  degrees of freedom
Residual deviance: 28.472  on 48  degrees of freedom
AIC: 52.472

Number of Fisher Scoring iterations: 19

這是沒有二項式參數的我的模型摘要的讀數:調用:glm(公式= Growthring〜治療+來源+ Treatment:Origin,數據= growthringdata)

Deviance Residuals: 
Min      1Q  Median      3Q     Max  
-0.8     0.0     0.0     0.0     0.8  

Coefficients:
                                   Estimate Std. Error t value Pr(>|t|)  
(Intercept)                          -4.278e-17  1.414e-01   0.000           1.0000  
TreatmentFirst Drought                3.145e-16  2.000e-01   0.000   1.0000  
TreatmentSecond Drought               2.000e-01  2.000e-01   1.000   0.3223  
TreatmentTwo Droughts                 1.152e-16  2.000e-01   0.000   1.0000  
OriginYellow                          2.000e-01  2.000e-01   1.000   0.3223  
OriginRed                             6.879e-17  2.000e-01   0.000   1.0000  
TreatmentFirst Drought:OriginYellow  -2.000e-01  2.828e-01  -0.707   0.4829  
TreatmentSecond Drought:OriginYellow  2.000e-01  2.828e-01   0.707   0.4829  
TreatmentTwo Droughts:OriginYellow   -2.000e-01  2.828e-01  -0.707   0.4829  
TreatmentFirst Drought:OriginRed     -3.243e-16  2.828e-01   0.000   1.0000  
TreatmentSecond Drought:OriginRed     6.000e-01  2.828e-01   2.121   0.0391 *
TreatmentTwo Droughts:OriginRed       4.000e-01  2.828e-01   1.414   0.1638  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for gaussian family taken to be 0.1)

    Null deviance: 8.9833  on 59  degrees of freedom
Residual deviance: 4.8000  on 48  degrees of freedom
AIC: 44.729

Number of Fisher Scoring iterations: 2

(對於可能出現的問題,我事先表示歉意。我嘗試閱讀邏輯回歸並嘗試遵循一些示例。但是,我一直在努力尋找針對自己特殊情況的答案)

非常感謝。

與上述Gregor的評論一致,可以將其解釋為編程問題。 如果不考慮family = binomial ,則函數glm()將采用默認的family = gaussian ,這意味着一個標識鏈接函數並假定存在正常的同調誤差。 另請參見?glm

正常和/或同方誤差的假設在這里可能會被違反。 因此,此處顯示的第二個模型的標准誤差和p值可能不正確。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM