繁体   English   中英

在df中的列的连续组上使用R进行因子分析

[英]Factor analysis using R over sequential groups of columns in df

我有一个具有10,000列(SNP频率)的df。 我需要使用非重复向量进行仿真(因子分析)。 为此,我需要对分成10组的列子集进行因子分析。例如,cols 1:10,11:20; 21:30。 由于手动指定它会花费很多时间,因此我需要一个简单的脚本来完成。 我写了这个,但是似乎不起作用。 我无法弄清楚如何告诉R什么时候开始和停止每次迭代。

ind=seq(1,(ncol(df)-10),by=10)

for (i in ind) { start=i;end=i+9; rez = factanal(df,factors=1, start:end)  }

只是一个小指针:

 groups <- seq(from=1, to=10000, by=10)

这对于将列分为10组可能很有用。然后,对于组的每个元素,您可以添加0:9 看到

> 1 + 0:9
 [1]  1  2  3  4  5  6  7  8  9 10

这可以用于子集数据框。

例如,

for(i in groups){
  your_function( dat[, i + 0:9] )
}

将使用相应的数据执行您的功能。 确保适当存储函数的输出。 将其包装为一个lapply调用可能会很有用,例如

 lapply(groups, function(x) your_function(dat[, x + 0:9]))

将输出保存在列表中。

虽然这可能是一个问题的答案,让我仍然增加,我会做什么,因为我认为这可以帮助你更从长远来看:不是遍历列,我会melt数据框为长格式,创建指示指数每组10个作为新变量,然后将该变量与dplyrgroup_by()操作结合使用作为分组变量进行分组分析。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM