在C ++和Rcpp中重写慢速R函数

Question

我有这行R代码：

croppedDNA <- completeDNA[,apply(completeDNA,2,function(x) any(c(FALSE,x[-length(x)]!=x[-1])))]

它的作用是识别DNA序列矩阵（1行= 1 seq）中非常规（信息性）的位点（cols），并将它们从矩阵中子集化以制作新的“裁剪矩阵”即摆脱所有值相同的列。 对于大数据集，这需要大约6秒。 我不知道我是否可以在C ++中更快地完成它（仍然是C ++中的初学者），但尝试它对我有好处。 我的想法是使用Rcpp，循环遍历CharacterMatrix的列，拉出列（站点）作为CharacterVector检查它们是否相同。 如果它们相同，则记录该列号/索引，对所有列继续。 然后在最后创建一个只包含那些列的新CharacterMatrix。 重要的是我保持rownames和列名称，因为它们在矩阵的“R版本”中，即如果列，则colname也应如此。

我已经写了大约两分钟，到目前为止我所拥有的（未完成）：

#include <Rcpp.h>
#include <vector>
using namespace Rcpp;
// [[Rcpp::export]]
CharacterMatrix reduce_sequences(CharacterMatrix completeDNA)
{
  std::vector<bool> informativeSites; 
  for(int i = 0; i < completeDNA.ncol(); i++)
  {
    CharacterVector bpsite = completeDNA(,i);
    if(all(bpsite == bpsite[1])
    {
      informativeSites.push_back(i);
    }
  }
CharacterMatrix cutDNA = completeDNA(,informativeSites);
return cutDNA;
}

我对此有正确的解决方法吗？ 有没有更简单的方法。 我的理解是我需要std :: vector因为它很容易长大（因为我事先并不知道我要保留多少cols）。 有了索引，我需要在最后给信息站点向量+1（因为R索引来自1而C ++来自0）？

谢谢，本W.

Answer 1

样本数据：

set.seed(123)
z <- matrix(sample(c("a", "t", "c", "g", "N", "-"), 3*398508, TRUE), 3, 398508)

OP的解决方案：

system.time(y1 <- z[,apply(z,2,function(x) any(c(FALSE,x[-length(x)]!=x[-1])))])
#    user  system elapsed 
#   4.929   0.043   4.976

使用基数R的更快版本：

system.time(y2 <- (z[, colSums(z[-1,] != z[-nrow(z), ]) > 0]))
#    user  system elapsed 
#   0.087   0.011   0.098

结果完全相同：

identical(y1, y2)
# [1] TRUE

c ++很可能会击败它，但它真的有必要吗？

在C ++和Rcpp中重写慢速R函数

问题描述

1 个解决方案

解决方案1
13 已采纳 2013-05-15 02:52:13

在C ++和Rcpp中重写慢速R函数

问题描述

1 个解决方案

解决方案1 13 已采纳 2013-05-15 02:52:13

解决方案1
13 已采纳 2013-05-15 02:52:13