在 R 中堆疊多列

Question

我正在嘗試將數據框轉換為 R 中的長格式。這是一個示例數據，用於在 'id' 網格中進行超過 9 天的調查，如果感興趣的變量被檢測到“1”或未檢測到“0”。 我想轉換這個數據框，使調查次數從 9 次減少到 3 次，但現在每個調查期都包含 3 次訪問。 我試圖通過一次堆疊三列來做到這一點，以便通過添加一個名為“visit_no”的列來將調查訪問“v1”到“v9”（在下圖中）轉換為 v1、v2、v3，該列描述了調查期內的訪問次數。
以下鏈接是當前形式的數據框圖像，如果生成數據的代碼如下

生成數據的代碼：

id<- c(240,220,160)
v1<- c(rep(0,9))
v2<-c(rep(0,3),1,rep(0,5))
v3<- c(1,rep(0,8))

v<-as.data.frame(rbind(v1,v2,v3))

survey<- cbind(id,v)
survey

這是我需要的數據框圖像的鏈接

參考數據框

Answer 1

一種方法是在基數 R 中使用reshape "

reshape(survey, direction="long", idvar="id",
        varying=list(c("V1","V4","V7"), c("V2","V5","V8"), c("V3","V6","V9")),
        v.names=c("Visit1", "Visit2", "Visit3"), timevar="visit_no") 

       id visit_no Visit1 Visit2 Visit3
240.1 240        1      0      0      0
220.1 220        1      0      0      0
160.1 160        1      1      0      0
240.2 240        2      0      0      0
220.2 220        2      1      0      0
160.2 160        2      0      0      0
240.3 240        3      0      0      0
220.3 220        3      0      0      0
160.3 160        3      0      0      0

如果您希望按 id 排序，則從 dplyr 添加arrange

 %>% dplyr::arrange(id)

   id visit_no Visit1 Visit2 Visit3
1 160        1      1      0      0
2 160        2      0      0      0
3 160        3      0      0      0
4 220        1      0      0      0
5 220        2      1      0      0
6 220        3      0      0      0
7 240        1      0      0      0
8 240        2      0      0      0
9 240        3      0      0      0

如果您的原始變量名稱采用一致的格式，那么 reshape 命令會更簡單，因為它會根據名稱正確猜測時間。 例如，

names(survey)[2:10] <- paste0(names(survey)[2:10], ".", rep(1:3, 3))
head(survey)
        id V1.1 V2.2 V3.3 V4.1 V5.2 V6.3 V7.1 V8.2 V9.3
v1 240    0    0    0    0    0    0    0    0    0
v2 220    0    0    0    1    0    0    0    0    0
v3 160    1    0    0    0    0    0    0    0    0

reshape(survey, direction="long", idvar="id",
        varying=2:10, # Can just give the indices now.
        v.names=c("Visit1", "Visit2", "Visit3"), timevar="visit_no") %>%
  arrange(id)

盡管時間格式一致，但原始變量名稱卻不一致，因此 R 無法猜測長格式（Visit1、Visit2、Visit3）的名稱，這些需要在v.names參數中提供。

如果他們是在一個統一的格式，那么重塑就更簡單了。

names(survey)[2:10] <- paste0("Visit", rep(1:3, each=3), ".", rep(1:3, 3))
head(survey)    
    id Visit1.1 Visit1.2 Visit1.3 Visit2.1 Visit2.2 Visit2.3 Visit3.1 Visit3.2 Visit3.3
v1 240        0        0        0        0        0        0        0        0        0
v2 220        0        0        0        1        0        0        0        0        0
v3 160        1        0        0        0        0        0        0        0        0

reshape(survey, direction="long", varying=2:10, timevar="visit_no") %>%
  arrange(id)

tidyr版本可能會涉及兩次重塑； 一個是將所有內容都變成很長的形式，然后再將其恢復為更寬的形式（我稱之為后退 1 步，前進 2 步的方法）。

Answer 2

您可以根據所需的順序更改列的名稱。

names(survey)[-1] <- paste(rep(paste0("visit", 1:3), each =3), 1:3, sep = "_")

names(survey)
#[1] "id"  "visit1_1" "visit1_2" "visit1_3" "visit2_1" "visit2_2" "visit2_3" 
#    "visit3_1" "visit3_2" "visit3_3"

然后使用pivot_longer的tidyr獲取不同列中的數據。

tidyr::pivot_longer(survey, cols = -id, names_to = c(".value", "visit_no"),
                    names_sep = "_") %>%
       type.convert(as.is = TRUE)


# A tibble: 9 x 5
#     id visit_no visit1 visit2 visit3
#  <int>    <int>  <int>  <int>  <int>
#1   240        1      0      0      0
#2   240        2      0      0      0
#3   240        3      0      0      0
#4   220        1      0      1      0
#5   220        2      0      0      0
#6   220        3      0      0      0
#7   160        1      1      0      0
#8   160        2      0      0      0
#9   160        3      0      0      0

在 R 中堆疊多列

問題描述

2 個解決方案

解決方案1
2 已采納 2020-03-14 02:11:04

解決方案2
0 2020-03-14 11:04:21

在 R 中堆疊多列

問題描述

2 個解決方案

解決方案1 2 已采納 2020-03-14 02:11:04

解決方案2 0 2020-03-14 11:04:21

解決方案1
2 已采納 2020-03-14 02:11:04

解決方案2
0 2020-03-14 11:04:21