在 R 的 dataframe 范围内查找重叠

Question

我有两个床文件作为 R 中的数据帧，我想为此 map 所有重叠区域彼此（类似于最接近的床工具能够做的事情）。

床A：

chr   start   end
 2       100     500
 2       200     250
 3       275     300

床B：

chr    start    end
  2       210      265
  2       99       106
  8       275      290

卧床：

chr   start.A   end.A  start.B  end.B
 2       100     500      210      265
 2       100     500      99       106
 2       200     250      210      265

现在，我发现了这个非常相似的问题，建议使用 iRanges。 使用建议的方式似乎可行，但我不知道如何将 output 变成像“BedOut”这样的数据框。

Answer 1

这是使用data.table package 的解决方案。

library(data.table)

chr = c(2,2,3)
start.A = c(100, 200, 275)
end.A = c(500, 250, 300)
df_A = data.table(chr, start.A, end.A)

chr = c(2,2,8)
start.B = c(210, 99, 275)
end.B = c(265, 106, 290)
df_B = data.table(chr, start.B, end.B)

首先，在键chr上内连接数据表：

df_out = df_B[df_A, on="chr", nomatch=0]

然后过滤重叠区间：

df_out = df_out[(start.A>=start.B & start.A<=end.B) | (start.B>=start.A & start.B<=end.A)]
setcolorder(df_out, c("chr", "start.A", "end.A", "start.B", "end.B"))

   chr start.A end.A start.B end.B
1:   2     100   500     210   265
2:   2     100   500      99   106
3:   2     200   250     210   265

Answer 2

另一个使用foverlaps data.table选项：

setkeyv(BedA, names(BedA))
setkeyv(BedB, names(BedB))
ans <- foverlaps(BedB, BedA, nomatch=0L)
setnames(ans, c("start","end","i.start","i.end"), c("start.A","end.A","start.B","end.B"))

output：

   chr start.A end.A start.B end.B
1:   2     100   500      99   106
2:   2     100   500     210   265
3:   2     200   250     210   265

数据：

library(data.table)
BedA <- fread("chr   start   end
2       100     500
2       200     250
3       275     300")

BedB <- fread("chr    start    end
2       210      265
2       99       106
8       275      290")

在 R 的 dataframe 范围内查找重叠

问题描述

2 个解决方案

解决方案1
0 2020-05-11 11:50:21

解决方案2
0 已采纳 2020-05-12 00:58:41

在 R 的 dataframe 范围内查找重叠

问题描述

2 个解决方案

解决方案1 0 2020-05-11 11:50:21

解决方案2 0 已采纳 2020-05-12 00:58:41

解决方案1
0 2020-05-11 11:50:21

解决方案2
0 已采纳 2020-05-12 00:58:41