dplyr / tidyr：传播并获取另一列的唯一值

Question

假设我有以下数据框：

library(tidyverse)

x <- tribble(
  ~cluster, ~sequence, ~proportion,
  1,   'A', 0.10,
  1,  'AB', 0.09,
  1,  'AC', 0.08,
  1, 'ABC', 0.06,

  2,   'D', 0.11,
  2,   'B', 0.11,
  2,  'DB', 0.09,
  2,  'DC', 0.08,
  2,  'AC', 0.07,
  2, 'ADC', 0.06,

  3,   'D', 0.12,
  3,  'BA', 0.10,
  3,  'BB', 0.04,
  3,  'BC', 0.03,
  3,  'BF', 0.03
)

我如何将其转换为：

y <- tribble(
  ~'cluster1', ~'cluster2', ~'cluster3',
    'A',   'D',  'D',
   'AB',   'B', 'BA',
   'AC',  'DB', 'BB',
  'ABC',  'DC', 'BC',
     '',  'AC', 'BF',
     '', 'ADC',   ''
)

也就是说，我需要将cluster的唯一值作为列clusterX ，并按proportion降序将sequence的值（已经是唯一的）获取到每个clusterX列中。

注意：每个cluster将具有不同数量的唯一sequences ，从而导致某些clusterX列底部的值为空。

Answer 1

split后与ldply的plyr检查

df=plyr::ldply(split(x$sequence,x$cluster), rbind)
col=df$.id
df$.id=NULL
df=data.frame(t(df))

names(df)=paste('cluster',col)
df
  cluster 1 cluster 2 cluster 3
1         A         D         D
2        AB         B        BA
3        AC        DB        BB
4       ABC        DC        BC
5      <NA>        AC        BF
6      <NA>       ADC      <NA>

Answer 2

您可以使用几个tidyr / dplyr步骤。 按比例排序数据。 然后在每个群集中，添加行号以保留此顺序并满足点spread的唯一标识符要求。 掉落比例； 传播; 并删除行号。

library(dplyr)
library(tidyr)

x %>%
  arrange(-proportion) %>%
  group_by(cluster) %>%
  mutate(row = row_number()) %>%
  select(-proportion) %>%
  spread(key = cluster, value = sequence, sep = "") %>%
  select(-row)
#> # A tibble: 6 x 3
#>   cluster1 cluster2 cluster3
#>   <chr>    <chr>    <chr>   
#> 1 A        D        D       
#> 2 AB       B        BA      
#> 3 AC       DB       BB      
#> 4 ABC      DC       BC      
#> 5 <NA>     AC       BF      
#> 6 <NA>     ADC      <NA>

^{由reprex软件包（v0.2.1）创建于2019-03-09}

dplyr / tidyr：传播并获取另一列的唯一值

问题描述

2 个解决方案

解决方案1
3 2019-03-10 00:26:04

解决方案2
1 已采纳 2019-03-10 00:51:51

dplyr / tidyr：传播并获取另一列的唯一值

问题描述

2 个解决方案

解决方案1 3 2019-03-10 00:26:04

解决方案2 1 已采纳 2019-03-10 00:51:51

解决方案1
3 2019-03-10 00:26:04

解决方案2
1 已采纳 2019-03-10 00:51:51