簡體   English   中英

R長到寬格式的分類變量和日期

[英]R long to wide format categorial variables and dates

我想制作一個長格式的數據集,其中的分類變量(葯物)具有寬格式的開始和結束日期。 結果,每個ID應該有一行,並且對於每種葯物,具有條目1/0的列或者患者是否得到了葯物。 葯物專欄應將相應的開始和結束日期作為額外的列。

我想

test <- data.frame(
  PatID  = c(1L, 1L, 2L, 2L, 3L, 4L,4L),
  medication = c("Jak","Others", "HU", "Inf","Others", "HU","Others"),  startDate   = c("2016-12-14", "2017-02-04", "2016-03-26", "2016-06-13", "2012-27-03", "2012-04-21", "2010-02-03"),
  endDate   = c("2018-11-14", "2018-02-25", "2017-06-13", "2017-11-12", "2018-27-03", "2016-04-30", "2016-08-16")
)

輸出應如下

ID   Jak   Jak_startDate   Jak_endDate   HU   HU_startDate   HU_endDate   Inf   Inf_startDate   Inf_endDate   Others   Others_startDate   Others_endDate <br/>
1    1      2016-12-14    2018-11-14     0     NA                NA        0        NA             NA            1      2017-02-04        2018-02-25
2    0         NA               NA       1   2017-06-13   2017-11-12       1   2018-03-27   2016-04-30           0         NA               NA
3    0         NA               NA       0     NA                NA        0        NA             NA            1      2012-27-03        2018-27-03
4    0         NA               NA       1   2012-04-21   2016-04-30       0        NA             NA            1      2010-02-03        2016-08-16

在這里使用tidyverse是我做的:

test %>% 
gather(key, value, - PatID, -medication) %>% 
arrange(PatID, value) %>% 
mutate(new_key = paste(medication, key, sep = "_")) %>% 
select(PatID, new_key, value) %>% 
spread(new_key, value) %>% 
left_join(test %>% select(PatID, medication) %>% 
mutate(ind = 1) %>% 
spread(medication, ind))

在這里,我將數據設置得更長,然后根據PatIDvalue進行arrange 然后我創建一個新的鍵列new_key並只select三個變量: PatIDnew_keyvalue 然后我把這全部變成寬數據,但我們仍然需要列, JakHU等,它們似乎是指標變量。 為此,我在left_join獲取測試數據並將其spread以獲取您請求的列。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM