需要拆分一列，包含不同數量的變量名稱和觀察值的雙重連接數據

Question

我有一列“ sample_values”，其中包含用“，”和“：”字符分隔的不同數量的雙重連接數據。 我需要將用“，”分隔的值變成新變量（列），並用“：”分隔這些值以觀察這些新變量。 這里顯示了有問題的data.frame的一小部分：

```{r}
> CDR3 <- c("CASSKGTGGPYEQYF", "CASSSDTDPSYGYTF", "CASSFGTGKNTEAFF", "CASSPRPRYYEQYF")
> sample_values <- c("sample_a:36,sample_b:24,sample_c:56", "sample_a:47", "sample_a:73,sample_b:12", "sample_c:76,sample_d:89")
> df <- data.frame(CDR3, sample_values)
> df
             CDR3                       sample_values
1 CASSKGTGGPYEQYF sample_a:36,sample_b:24,sample_c:56
2 CASSSDTDPSYGYTF                         sample_a:47
3 CASSFGTGKNTEAFF             sample_a:73,sample_b:12
4  CASSPRPRYYEQYF             sample_c:76,sample_d:8
```

我想得出以下結果：

```{r}
             CDR3 sample_a sample_b sample_c sample_d
1 CASSKGTGGPYEQYF       36       24       56        0
2 CASSSDTDPSYGYTF       47        0        0        0
3 CASSFGTGKNTEAFF       73       12        0        0
4  CASSPRPRYYEQYF        0        0       76       89
```

我將注意到，沒有觀察值應解釋為零。

我已經嘗試過使用tidyr包中的tidyr separate()和spread()各種組合，以及tidyr包中的cSplit()來進行此splitstackshape 。 tidyr選項由於在列中要分離的觀察點數量不同而失敗，而splitstackshape選項由於內存不足（未刪節的數據文件大小為485 MB）而失敗。

Answer 1

使用tidyverse我們可以首先將所有sample_values帶入單獨的行，然后separate列名和值separate到單獨的列中，最后spread其spread為寬格式，以0填充缺失值。

library(tidyverse)

df %>%
  separate_rows(sample_values, sep = ",") %>%
  separate(sample_values, into = c("col", "values"), sep = ":") %>%
  spread(col, values, fill = 0)


# CDR3            sample_a sample_b sample_c sample_d
#  <fct>           <chr>    <chr>    <chr>    <chr>   
#1 CASSFGTGKNTEAFF 73       12       0        0       
#2 CASSKGTGGPYEQYF 36       24       56       0       
#3 CASSPRPRYYEQYF  0        0        76       89      
#4 CASSSDTDPSYGYTF 47       0        0        0

需要拆分一列，包含不同數量的變量名稱和觀察值的雙重連接數據

問題描述

1 個解決方案

解決方案1
0 已采納 2019-04-27 03:07:38

需要拆分一列，包含不同數量的變量名稱和觀察值的雙重連接數據

問題描述

1 個解決方案

解決方案1 0 已采納 2019-04-27 03:07:38

解決方案1
0 已采納 2019-04-27 03:07:38