[英]How can i convert a dataset with ratios for a binary outcome to something suitable for logistic regression in R
我有一個數據集,可以匯總查看每組個人
Gender Age Region Count Affected
Male 18-24 CA 9843 384
Female 18-24 CA 8745 489
Male 35-24 CA 11923 381
等等
我想對受影響的結果進行邏輯回歸,該結果本質上是一個二進制響應變量。 我可以自己重建數據以使其看起來像
Gender Age Region Affected
Male 18-24 CA 0
Male 18-24 CA 0
(...)
Male 18-24 CA 1
Male 18-24 CA 1
(...)
Female 18-24 CA 0
Female 18-24 CA 0
依此類推,基本上,為受影響的人創建一個虛擬變量,或者換句話說,為每個組創建一個數據集,為每個受影響的人創建一個行,其中一個為0,每個人為一行。 我可以很容易地手動完成此操作,但是R中有一種簡單的方法可以將這種二進制比率數據轉換為R中的邏輯回歸可以使用的數據集
嘗試這個:
glm(cbind(Affected, Count - Affected) ~ Gender + Age, data = DF, family = binomial())
提供以下輸出:
Call: glm(formula = cbind(Affected, Count - Affected) ~ Gender + Age,
family = binomial(), data = DF)
Coefficients:
(Intercept) GenderMale Age35-24
-2.8263 -0.3777 -0.2069
Degrees of Freedom: 2 Total (i.e. Null); 0 Residual
Null Deviance: 72.39
Residual Deviance: 7.17e-13 AIC: 29.47
注意:上面我們使用了以下輸入:
Lines <- "Gender Age Region Count Affected
Male 18-24 CA 9843 384
Female 18-24 CA 8745 489
Male 35-24 CA 11923 381"
DF <- read.table(text = Lines, header = TRUE)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.