递归子集一个data.frame

Question

我有一个包含近400万行的数据框。 我需要一种有效的方法来基于两个条件对数据进行子集化。 我可以这样做是一个for循环，但是想知道是否有更优雅的方法来执行此操作，并且效率显然更高。 data.frame看起来像这样：

SNP         CHR     BP          P
rs1000000   chr1    126890980   0.000007
rs10000010  chr4    21618674    0.262098    
rs10000012  chr4    1357325     0.344192
rs10000013  chr4    37225069    0.726325    
rs10000017  chr4    84778125    0.204275    
rs10000023  chr4    95733906    0.701778
rs10000029  chr4    138685624   0.260899
rs1000002   chr3    183635768   0.779574
rs10000030  chr4    103374154   0.964166    
rs10000033  chr2    139599898   0.111846    
rs10000036  chr4    139219262   0.564791
rs10000037  chr4    38924330    0.392908    
rs10000038  chr4    189176035   0.971481    
rs1000003   chr3    98342907    0.000004
rs10000041  chr3    165621955   0.573376
rs10000042  chr3    5237152     0.834206    
rs10000056  chr4    189321617   0.268479
rs1000005   chr1    34433051    0.764046
rs10000062  chr4    5254744     0.238011    
rs10000064  chr4    127809621   0.000044
rs10000068  chr2    36924287    0.000003
rs10000075  chr4    179488911   0.100225    
rs10000076  chr4    183288360   0.962476
rs1000007   chr2    237752054   0.594928
rs10000081  chr1    17348363    0.517486    
rs10000082  chr1    167310192   0.261577    
rs10000088  chr1    182605350   0.649975
rs10000092  chr4    21895517    0.000005
rs10000100  chr4    19510493    0.296693

我首先要做的是选择那些P值低于阈值的SNP ，然后按CHR和POS排序此子集。 这是简单的部分，使用subset和order 。 但是，下一步是棘手的。 一旦我有这个子集，我需要获取所有SNP从显著陷入500,000窗口上下SNP ，这一步将定义一个区域。 我需要对所有重要的SNP都执行此操作，并将每个区域存储到列表或类似内容中以进行进一步的分析。 例如，在显示的数据帧中， CHR==chr1的最高有效SNP （即低于0.001的阈值）为rs1000000 ，而CHR==chr4的最高有效SNP为rs10000092 。 因此，这两个SNP将定义两个区域，我需要在每个这些区域中获取从每个最高SNP的POS上下掉入500,000的SNP 。

我知道这有点复杂，现在，我正在手工完成棘手的部分，但是要花很长时间。 任何帮助，将不胜感激。

Answer 1

这是使用data.table R的部分解决方案，这可能是处理大型数据集时进入R的最快方法。

library(data.table) # v1.9.7 (devel version)


df <- fread("C:/folderpath/data.csv") # load your data
setDT(df) # convert your dataset into data.table

第一步

# Filter data under threshold 0.05 and Sort by CHR, POS
  df <- df[ P < 0.05, ][order(CHR, POS)]

第二步

df[, {idx = (1:.N)[which.min(P)]
      SNP[seq(max(1, idx - 5e5), min(.N, idx + 5e5))]}, by = CHR]

将输出保存到其他文件中

df[, fwrite(copy(.SD)[, SNP := SNP], paste0("output", SNP,".csv")), by = SNP]

ps。 请注意，此答案使用fwrite ，它仍在data.table的开发版本中。 请转到此处获取安装说明。 您可以简单地使用write.csv ，但是您要处理的是大型数据集，因此速度非常重要，而fwrite无疑是最快的替代方法之一。

递归子集一个data.frame

问题描述

1 个解决方案

解决方案1
2 已采纳 2016-05-18 22:40:43

第一步

第二步

将输出保存到其他文件中

递归子集一个data.frame

问题描述

1 个解决方案

解决方案1 2 已采纳 2016-05-18 22:40:43

第一步

第二步

将输出保存到其他文件中

解决方案1
2 已采纳 2016-05-18 22:40:43