[英]How to plot logistic binomial regression models with categorical and continuous variables?
[英]Binomial logistic regression with categorical predictors and interaction (binomial family argument and p-value differences)
當我在glm模型中使用交互加上family =二項式參數時,以及當我忽略它時,我對重要性和重要性差異存在疑問。 我對邏輯回歸非常陌生,過去只做過更簡單的線性回歸。
我有一個樹木生長年輪的觀測數據集,其中有兩個分類解釋變量 ( 處理和原產地 )。 “處理”變量是具有四個級別(控制,第一次干旱,第二次干旱和兩次干旱)的實驗性干旱處理。 Origin變量具有三個級別,指的是樹的原點(給定的代碼顏色表示不同的原點為Red,Yellow和Blue)。 我的觀察是是否存在年輪( 1 =存在年輪,0 =不存在年輪 )。
就我而言,我對“治療”的效果,“起源”的效果以及“治療”與“起源”的可能相互作用感興趣。
已經提出,二項式邏輯回歸將是分析該數據集的好方法。 (希望這是適當的?也許有更好的方法?)
我有n = 5(按原產地處理的每種組合有5個觀察值。因此,例如,對對照處理藍起源樹的生長環有5個觀察值,對於對照處理黃起源樹的生長環有5個觀察值,等等)。數據集中有60個觀測到的年輪。
在R中,我使用的代碼是glm()函數。 我將其設置如下:growthring_model <-glm(生長+來源+治療:來源,數據= growthringdata,家庭=二項式(link =“ logit”))
我已經考慮了我的解釋變量,以使Control處理和Blue origin樹成為我的參考。
我注意到的是,當我將“ family = binomial”參數排除在代碼外時,它給了我p值,在給定數據結果的情況下,我可以合理地期望它。 但是,當我添加“ family = binomial”參數時,p值是1或非常接近1(例如1、0.98、0.99)。 這似乎很奇怪。 我可以看到它的重要性不高,但是鑒於實際數據,這些值都非常接近1,這使我感到懷疑。 如果我在不使用“ family = binomial”參數的情況下運行模型,則得到的p值似乎更有意義(即使它們仍然相對較高/無關緊要)。
有人可以幫助我理解二項式參數如何極大地改變我的結果嗎? (我知道它指的是分布,即我的觀察值為1或0)在模型中它到底發生了什么變化? 這是樣本量低的結果嗎? 我的代碼中有東西嗎? 也許那些非常高的值是正確的(還是不正確?)?
這是從我的模型摘要中讀出的,其中存在二項式參數:調用:glm(公式= Growthring〜處理+來源+處理:來源,家庭= Binomial(鏈接=“ logit”),數據= growthringdata)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.79412 -0.00005 -0.00005 -0.00005 1.79412
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.057e+01 7.929e+03 -0.003 0.998
TreatmentFirst Drought -9.931e-11 1.121e+04 0.000 1.000
TreatmentSecond Drought 1.918e+01 7.929e+03 0.002 0.998
TreatmentTwo Droughts -1.085e-10 1.121e+04 0.000 1.000
OriginYellow 1.918e+01 7.929e+03 0.002 0.998
OriginRed -1.045e-10 1.121e+04 0.000 1.000
TreatmentFirst Drought:OriginYellow -1.918e+01 1.373e+04 -0.001 0.999
TreatmentSecond Drought:OriginYellow -1.739e+01 7.929e+03 -0.002 0.998
TreatmentTwo Droughts:OriginYellow -1.918e+01 1.373e+04 -0.001 0.999
TreatmentFirst Drought:OriginRed 1.038e-10 1.586e+04 0.000 1.000
TreatmentSecond Drought:OriginRed 2.773e+00 1.121e+04 0.000 1.000
TreatmentTwo Droughts:OriginRed 2.016e+01 1.373e+04 0.001 0.999
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 57.169 on 59 degrees of freedom
Residual deviance: 28.472 on 48 degrees of freedom
AIC: 52.472
Number of Fisher Scoring iterations: 19
這是沒有二項式參數的我的模型摘要的讀數:調用:glm(公式= Growthring〜治療+來源+ Treatment:Origin,數據= growthringdata)
Deviance Residuals:
Min 1Q Median 3Q Max
-0.8 0.0 0.0 0.0 0.8
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4.278e-17 1.414e-01 0.000 1.0000
TreatmentFirst Drought 3.145e-16 2.000e-01 0.000 1.0000
TreatmentSecond Drought 2.000e-01 2.000e-01 1.000 0.3223
TreatmentTwo Droughts 1.152e-16 2.000e-01 0.000 1.0000
OriginYellow 2.000e-01 2.000e-01 1.000 0.3223
OriginRed 6.879e-17 2.000e-01 0.000 1.0000
TreatmentFirst Drought:OriginYellow -2.000e-01 2.828e-01 -0.707 0.4829
TreatmentSecond Drought:OriginYellow 2.000e-01 2.828e-01 0.707 0.4829
TreatmentTwo Droughts:OriginYellow -2.000e-01 2.828e-01 -0.707 0.4829
TreatmentFirst Drought:OriginRed -3.243e-16 2.828e-01 0.000 1.0000
TreatmentSecond Drought:OriginRed 6.000e-01 2.828e-01 2.121 0.0391 *
TreatmentTwo Droughts:OriginRed 4.000e-01 2.828e-01 1.414 0.1638
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for gaussian family taken to be 0.1)
Null deviance: 8.9833 on 59 degrees of freedom
Residual deviance: 4.8000 on 48 degrees of freedom
AIC: 44.729
Number of Fisher Scoring iterations: 2
(對於可能出現的問題,我事先表示歉意。我嘗試閱讀邏輯回歸並嘗試遵循一些示例。但是,我一直在努力尋找針對自己特殊情況的答案)
非常感謝。
與上述Gregor的評論一致,可以將其解釋為編程問題。 如果不考慮family = binomial
,則函數glm()
將采用默認的family = gaussian
,這意味着一個標識鏈接函數並假定存在正常的同調誤差。 另請參見?glm
。
正常和/或同方誤差的假設在這里可能會被違反。 因此,此處顯示的第二個模型的標准誤差和p值可能不正確。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.