從R的一列中的一部分字符串創建組

Question

我正在處理來自微陣列的DNA甲基化數據。 陣列中的每個“探針”都有與其相關的多個基因。每個基因中也有多個探針。 這是一個簡短的示例：

|probe      | P.Value| adj.P.Val|      Dbeta|UCSC_REFGENE_NAME          |
|:----------|-------:|---------:|----------:|:--------------------------|
|cg23516680 |   2e-07| 0.0003419| -0.0172609|LYST                       |
|cg02390624 |   2e-07| 0.0003419|  0.0170831|SYTL2;SYTL2;SYTL2          |
|cg08808720 |   2e-07| 0.0003424| -0.0129818|KIF5C;MIR1978              |
|cg12074090 |   2e-07| 0.0003300| -0.0169523|ANGPT2;ANGPT2;ANGPT2;MCPH1 |
|cg10376100 |   1e-07| 0.0002714|  0.0172562|LYST;MIR1537               |

我要做的是根據UCSC_REFGENE_NAME列中出現的任何字符名稱（基因）進行分組（例如，一組將是與基因LYST相關的所有探針，而另一組則是在MIR1537中的所有探針）

要點：

我知道這會導致單個探針/行發生> 1（ LYST和MIR1537都應該是包含cg10376100的組）
我不希望同一基因的同一探針出現> 1（例如，cg12074090對於ANGPT2只應出現一次）。

有什么建議嗎？

Answer 1

擴展@thelatemail的注釋，您可以使用tidyr::separate_rows為UCSC_REFGENE_NAME列中的每個單獨條目創建一行。 接下來，您可以使用dplyr::distinct刪除重復的條目。

library(dplyr)
library(tidyr)

df %>% 
  separate_rows(UCSC_REFGENE_NAME, sep = ";") %>%
  distinct()

#>        probe P.Value adj.P.Val      Dbeta UCSC_REFGENE_NAME
#> 1 cg23516680   2e-07 0.0003419 -0.0172609              LYST
#> 2 cg02390624   2e-07 0.0003419  0.0170831             SYTL2
#> 3 cg08808720   2e-07 0.0003424 -0.0129818             KIF5C
#> 4 cg08808720   2e-07 0.0003424 -0.0129818           MIR1978
#> 5 cg12074090   2e-07 0.0003300 -0.0169523            ANGPT2
#> 6 cg12074090   2e-07 0.0003300 -0.0169523             MCPH1
#> 7 cg10376100   1e-07 0.0002714  0.0172562              LYST
#> 8 cg10376100   1e-07 0.0002714  0.0172562           MIR1537

使用數據

txt = " |probe      | P.Value| adj.P.Val|      Dbeta|UCSC_REFGENE_NAME          |
  |cg23516680 |   2e-07| 0.0003419| -0.0172609|LYST                       |
  |cg02390624 |   2e-07| 0.0003419|  0.0170831|SYTL2;SYTL2;SYTL2          |
  |cg08808720 |   2e-07| 0.0003424| -0.0129818|KIF5C;MIR1978              |
  |cg12074090 |   2e-07| 0.0003300| -0.0169523|ANGPT2;ANGPT2;ANGPT2;MCPH1 |
  |cg10376100 |   1e-07| 0.0002714|  0.0172562|LYST;MIR1537               |"

df <- read.table(text = stringr::str_replace_all(txt, "\\|", " "),
           header = TRUE, stringsAsFactors = FALSE)

從R的一列中的一部分字符串創建組

問題描述

1 個解決方案

解決方案1
3 已采納 2017-11-03 22:41:00

從R的一列中的一部分字符串創建組

問題描述

1 個解決方案

解決方案1 3 已采納 2017-11-03 22:41:00

解決方案1
3 已采納 2017-11-03 22:41:00