在R中提取基因注释ID

Question

我有一个注释文件，我想解析出FlyBase脚本ID来创建新列。 我已经尝试过正则表达式，但是没有用。 不知道我是否可能没有正确使用它。 这些ID位于字符串的开头或中间，在这种情况下，是来自不同数据库的ID的集合。 在这种情况下，我可能想使用多个FlyBase ID，例如ID1/ID2 。

注释行示例： "AY113634 // --- // 100 // 2 // 2 // 0 /// FBtr0089787 // --- // 100 // 2 // 2 // 0"

"FBtr0079338 // --- // 100 // 15 // 15 // 0 /// FBtr0086326 // --- // 100 // 15 // 15 // 0 /// FBtr0100846 // --- // 100 // 15 // 15 // 0 /// NONDMET000145 // --- // 100 // 15 // 15 // 0 /// NONDMET000970 // --- // 100 // 15 // 15 // 0 /// NONDMET000971 // --- // 100 // 15 // 15 // 0"

我想创建一个保持相同顺序的列，但在必要时仅包含带有分隔符的FlyBase ID。 我正在使用data.table包，因此如果有使用数据表的解决方案，将不胜感激。 我的一个主意是使用sub ，搜索[ FBtr][0-9+] （不确定是否正确），如果它与该模式不匹配，则将其替换为"" 。

示例表： x <- data.table(probesetID = 1:10, probesetType = rep("main", 10), rep("FBtr0299871 // --- // 100 // FBtr193920 // 3 // 3 // 0", 10))

Answer 1

这是一些入门的信息，一旦您对“ data.table”的外观有了更好的了解，就可以更新答案：

x <- "FBtr0079338 // --- // 100 // 15 // 15 // 0 /// FBtr0086326 // --- // 100 // 15 // 15 // 0 /// FBtr0100846 // --- // 100 // 15 // 15 // 0 /// NONDMET000145 // --- // 100 // 15 // 15 // 0 /// NONDMET000970 // --- // 100 // 15 // 15 // 0 /// NONDMET000971 // --- // 100 // 15 // 15 // 0"
sapply(strsplit(x, "/+"), function(s) grep("FBtr", trimws(s), value=TRUE))

#     [,1]         
#[1,] "FBtr0079338"
#[2,] "FBtr0086326"
#[3,] "FBtr0100846"

sapply(strsplit(x, "/+"), function(x) paste0(grep("FBtr", trimws(x), value=TRUE), collapse = ";"))
#[1] "FBtr0079338;FBtr0086326;FBtr0100846"

编辑：

分配给数据表中的新列：

x$FBtr <- sapply(strsplit(x$V3, "/+"), function(x) paste0(grep("FBtr", trimws(x), value=TRUE), collapse = ";"))

本质上，您可以提供包含x注释的列。

Answer 2

更特定于data.table ，并使用stringr包：

library(stringr)
x[, .(IDs = str_c(unlist(str_extract_all(V3, "(FBtr)[0-9]+")), 
    collapse = "/")), by = probesetID]

在R中提取基因注释ID

问题描述

2 个解决方案

解决方案1
0 2017-10-12 17:21:30

编辑：

解决方案2
0 已采纳 2017-10-12 18:35:35

在R中提取基因注释ID

问题描述

2 个解决方案

解决方案1 0 2017-10-12 17:21:30

编辑：

解决方案2 0 已采纳 2017-10-12 18:35:35

解决方案1
0 2017-10-12 17:21:30

解决方案2
0 已采纳 2017-10-12 18:35:35