交叉引用数据帧而不使用for循环

Question

我在使用for循环交叉引用2个数据帧的速度方面遇到问题。 总体目标是识别数据框2中位于数据框1中指定的坐标之间的行（并满足其他条件）。 例如df1：

    chr     start       stop        strand
1   chr1    179324331   179327814   +
2   chr21   45176033    45182188    +
3   chr5    126887642   126890780   +
4   chr5    148730689   148734146   +

DF2：

    chr     start       strand
1   chr1    179326331   +
2   chr21   45175033    +
3   chr5    126886642   +
4   chr5    148729689   +

我当前的代码是：

for (index in 1:nrow(df1)) { 
  found_miRNAs <- ""
  curr_row = df1[index, ]; 
for (index2 in 1:nrow(df2)){
    curr_target = df2[index2, ]
    if (curr_row$chrm == curr_target$chrm & curr_row$start < curr_target$start & curr_row$stop > curr_target$start & curr_row$strand == curr_target$strand) {
      found_miRNAs <- paste(found_miRNAs, curr_target$start, sep=":")
    }
  }
  curr_row$miRNAs <- found_miRNAs
  found_log <- rbind(Mcf7_short_aUTRs2,curr_row)
}

我的实际数据帧是df1的400行，而df2的> 100000行，我希望进行500次迭代，因此，正如您可以想象的那样，这是行不通的。 我对R还是比较陌生，因此任何可能提高此效率的函数提示都将是很棒的。

Answer 1

也许速度不够快，但可能更快并且更容易阅读：

df1 <- data.frame(foo=letters[1:5], start=c(1,3,4,6,2), end=c(4,5,5,9,4))
df2 <- data.frame(foo=letters[1:5], start=c(3,2,5,4,1))
where <- sapply(df2$start, function (x) which(x >= df1$start & x <= df1$end))

这将为df2中的每一行提供df1中相关行的列表。 我刚刚在df1中尝试了500行，在df2中尝试了50000行。 一两秒就完成了。

要添加条件，请在sapply更改内部函数。 然后，如果您想where第二个数据框中放置where ，则可以执行例如

df2$matching_rows <- sapply(where, paste, collapse=":")

但是您可能希望将其保留为列表，这是它的自然数据结构。

实际上，您甚至可以在数据框中添加一个列表列：

df2$matching_rows <- where

尽管这很不寻常。

Answer 2

当您从另一种编程语言进入R时，您遇到了两个最常见的错误。 使用for循环代替基于向量的操作，并动态附加到数据对象。 我建议随着您的流利程度的提高，您需要花一些时间阅读Patrick Burns的R Inferno ，它可以对这些问题和其他问题提供一些有趣的见解。

正如@David Arenburg和@ zx8754在上面的评论中指出的那样，有专门的软件包可以解决问题，而data.table软件包和data.table的方法对于较大的数据集可能非常有效。 但是对于您的案例，R也可以非常有效地执行您需要的操作。 在这里，我将记录一种方法，为清晰起见，还提供了一些比必要的步骤多的步骤，以防您感兴趣：

set.seed(1001)

ranges <- data.frame(beg=rnorm(400))
ranges$end <- ranges$beg + 0.005

test <- data.frame(value=rnorm(100000))
##  Add an ID field for duplicate removal:
test$ID <- 1:nrow(test)


##  This is where you'd set your criteria.  The apply() function is just 
##      a wrapper for a for() loop over the rows in the ranges data.frame:
out <- apply(ranges, MAR=1, function(x) test[ (x[1] < test$value & x[2] > test$value), "ID"])

selected <- unlist(out)
selected <- unique( selected )

selection <- test[ selected, ]

交叉引用数据帧而不使用for循环

问题描述

2 个解决方案

解决方案1
1

解决方案2
0 已采纳 2015-05-12 11:06:04

交叉引用数据帧而不使用for循环

问题描述

2 个解决方案

解决方案1 1

解决方案2 0 已采纳 2015-05-12 11:06:04

解决方案1
1

解决方案2
0 已采纳 2015-05-12 11:06:04