簡體   English   中英

Cox 比例風險 model 中的相互作用:對比和兩個分類因素之間的問題

[英]Interactions in Cox proportional hazard model : issue between contrasts and two categorical factors

我需要幫助才能了解 R 中的 coxph() function 如何工作,從而如何正確解釋 output。

我嘗試在具有兩個因素的“生存分析”數據集上運行 cox 比例風險 model:性別和基因型。 性別因素有兩個分類變量:“m”代表男性,“f”代表女性。 基因型因子具有三個分類變量:“Ctrl”、“nKO”、“CRE_Ctrl”。 我想看看是否有交互,因此我做了:

library(survival)
Survival = Surv(time = D$Age, event = D$outcome) #D is my dataframe, Age is time of death, outcome is the column for censored individuals.

此外,我還想看到以下對比:“nKO vs Ctrl”和“nKO vs CRE_Ctrl”。 因此,我使用這條線將 nKO 設置為對比的基線:

D$Genotype = relevel(D$Genotype, ref = "nKO")
colnames(contrasts(D$Genotype)) = c(' (nKO vs CRE_Ctrl)', ' (nKO vs Ctrl)')

所以,最后,我運行了最后一行:

coxph(data = mydata, formula = Survival ~ Sex * Genotype)

output 看起來像這樣:

                                   coef exp(coef) se(coef)      z        p
Sexm                            -0.5769    0.5616   0.2294 -2.514 0.011925
Genotype (nKO vs CRE_Ctrl)      -0.9983    0.3685   0.2593 -3.850 0.000118
Genotype (nKO vs Ctrl)          -0.4072    0.6655   0.2461 -1.654 0.098034
Sexm:Genotype (nKO vs CRE_Ctrl)  0.5940    1.8111   0.3483  1.705 0.088147
Sexm:Genotype (nKO vs Ctrl)      0.5607    1.7520   0.3444  1.628 0.103539

好的,看來我已經擁有了我想要的一切。 但是,我注意到一件事,當我將性別因素的基線更改為“m”而不是“f”時:我得到了不同的輸出:

D$Sex = relevel(D$Sex, ref = "m")
coxph(data = D, formula = Survival ~ Sex * Genotype)

                                   coef exp(coef) se(coef)      z      p
Sexf                             0.5769    1.7805   0.2294  2.514 0.0119
Genotype (nKO vs CRE_Ctrl)      -0.4044    0.6674   0.2438 -1.658 0.0972
Genotype (nKO vs Ctrl)           0.1536    1.1660   0.2406  0.638 0.5232
Sexf:Genotype (nKO vs CRE_Ctrl) -0.5940    0.5521   0.3483 -1.705 0.0881
Sexf:Genotype (nKO vs Ctrl)     -0.5607    0.5708   0.3444 -1.628 0.1035

你可以看到我對 Sexf、Sexf:Genotype (nKO vs CRE_Ctrl) 和 Sexf:Genotype (nKO vs Ctrl) 有相反的 output,這是我理解的。 但不適用於基因型(nKO vs CRE_Ctrl),基因型(nKO vs Ctrl),我不明白。 所以,我不明白這里發生了什么。 為什么我對沒有交互作用的基因型因子的對比似乎受到性別因子基線的影響? 實際上,您甚至可以看到,對於我的基因型對比,以“f”作為基線(第一個 coxph 輸出)的 p 值是顯着的,而當“m”是基線(第二個 coxph 輸出)時,p 值並不顯着。 . 那么,該信任哪一個呢?

你能解釋一下為什么會這樣嗎? 這是我的第一次生存分析,我可能對這類分析的許多事情一無所知。

提前感謝您的回復,

你犯了一個常見的錯誤。 對交互模型的 model 預測的解釋不應側重於對主效應的解釋。 (不幸的是,許多統計學教師不理解這一事實,甚至經常聽到有經驗的統計學用戶試圖談論交互作用項中主效應系數的含義。)沒有“沒有交互作用的基因型因子的對比” ,雖然會有非交互 model。 因為您構建了交互 model,基因型系數只能通過同時指定一個性別來解釋。 相反,您應該專注於對特定變量組合的預測和比較。 這就是交互 model 所暗示的,即您需要同時知道這兩個變量。 您確實有 6 種不同的可能情況,因此當您選擇新的參考情況時,與新參考相比的相對風險都發生變化也就不足為奇了。

性別系數隱含地與基因型變量的相同參考水平配對。 這就是允許絕對值相同的原因。 在 nKO 與 CRE_Ctrl 的情況下,請注意 -0.4044 -0.5940 等於 -0.9984,這與 -0.9983 相同,直到舍入誤差。 對於基因型(nKO vs Ctrl); -0.4072 + 0.5607 等於 0.1536 直到舍入誤差。 您正在查看對數刻度上的相同差異,但從“不同的角度”。

如果我們有數據可以使用,我們可以通過這樣的預測更好地說明這一點。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM