簡體   English   中英

分類變量GLM,model.matrix的多個值

[英]multiple values of a categorical variable , GLM , model.matrix

我有一個看起來像這樣的數據

    id var1 var2 var3 response var4
1   1    0 cat1    E        1   T4
2   1    0 cat1    E        1   T2
3   2    0 cat2    B        1 <NA>
4   3    0 cat3    C        0 <NA>
5   4    0 cat4    D        0   T3
6   4    0 cat4    D        0   T1
7   5    1 cat1    A        1   T4
8   5    1 cat1    A        1   T3
9   6    1 cat3    C        1   T3
10  7    0 cat1    C        0   T1

我想為因變量"response"運行glm

如您所見,ID不是唯一的,這是因為每個ID可以為“ var4”取多個值,

為此,我嘗試了model.matrix但是它不保留ID,因此很難檢查結果,我敢肯定有一種簡單的方法可以做到這一點,有人可以幫忙嗎?

生成上述數據,您可以使用

# GENERATING THE FIRST DATA FRAME

set.seed(1984)

df1 <- data.frame(id = 1:15, 
                  var1 = sample(0:1, 15, replace = T, prob = c(.7,.3)), 
                  var2 = sample(c('cat1','cat2', 'cat3','cat4'),15, replace = T), 
                  var3 = sample(LETTERS[1:5],15, replace = T ), 
                  response = sample(0:1, 15, replace = T)
                  )

# GENERATING THE 2ND DATA FRAME
set.seed(1984)

df2 <- data.frame(id = sample(1:15, 20, replace = T), 
                  var4 = sample(c('T1','T2','T3','T4'), 20, replace = T))

df2 <- unique(df2[order(df2$id), ])
row.names(df2) <- NULL

# MERGING THE TWO
df3 <- merge(df1, df2, by = 'id', all = T )

df3

我將使用來自reshape2包的dcast重塑數據。 這將重塑您的數據,以便在將數據幀輸入到model.matix之前,每個id都位於一行上,並且一次熱編碼var4。 使用您的最小工作示例,這將類似於:

library(reashpe2)

newDF <- dcast(df3, ...~var4,function(x) length(x))
model.matrix(response ~., newDF)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM