繁体   English   中英

r - lapply将列除以来自不同数据集的整数值,意外结果

[英]r - lapply divides a column by an integer value from different dataset, unexpected result

我有两个data.frames,一个有基因型计数,另一个有一个数字,我需要从第一个数据集中规范化我的计数。

countsdata=data.frame(genotype1=rep(c(10,20,30,40),each=1),
                       genotype2=rep(c(100,200,300,400),each=1),
                       genotype3=rep(c(40,50,60,70),each=1),
                       genotype4=rep(c(40,50,60,70),each=1)
                      )
coldata = data.frame(Group =c('genotype1', 'genotype2', 'genotype3', 'genotype4'),
                     Treatment = rep(c("control","treated"),each = 2),
                     Norm=rep(c(1,2,5,5)))

我确保我的变量没有因素

factorsCharacter <- function(d) modifyList(d, lapply(d[, sapply(d, is.factor)],   
                                                     as.character))
coldata=factorsCharacter(coldata)

然后我看到lapply循环遍历我的计数,当时一列,并通过我的coldata包含标准化值(Norm)。 一切都很好看,直到我在同一步骤中结合这两个动作

> lapply(coldata['Group'],function(group_i){group_i})
$Group
[1] "genotype1" "genotype2" "genotype3" "genotype4"

> lapply(coldata['Group'],function(group_i){countsdata[,group_i]})
$Group
  genotype1 genotype2 genotype3 genotype4
1        10       100        40        40
2        20       200        50        50
3        30       300        60        60
4        40       400        70        70

> lapply(coldata['Group'],function(group_i){as.integer(coldata[coldata$Group==group_i,'Norm'])})
$Group
[1] 1 2 5 5

> lapply(coldata['Group'],function(group_i){
+ countsdata[,group_i]/as.integer(coldata[coldata$Group==group_i,'Norm'])
+ })
$Group
  genotype1 genotype2 genotype3 genotype4
1        10       100        40        40
2        10       100        25        25
3         6        60        12        12
4         8        80        14        14

这里的结果不是我所期望的(将每列除以其归一化数)。 在进一步检查之后,我注意到它按行进行了规范化,换句话说,它是在不同列之间进行规范化的,这不应该是这种情况,因为我正在循环遍历一列。 我可能错过了一个基本的概念,但通过其他SO帖子找不到我可以使用的任何东西。 我的目标是修复代码以进行正确的计算,但我也想了解为什么上面的代码不起作用。 非常感谢。

问题在于使用[而不是[[ 因此,我们有一个长度为1且包含所有元素的list ,而不是循环遍历“Group”列list的每个元素。 因此,要么使用coldata[, 'Group'] ,要么使用coldata[, 'Group'] coldata[['Group']]coldata$Group进行循环。

countsdataNew <- countsdata
countsdataNew[] <- lapply(coldata[['Group']],function(group_i)
                   countsdata[,group_i]/coldata$Norm[coldata$Group==group_i])
countsdataNew
#  genotype1 genotype2 genotype3 genotype4
#1        10        50         8         8
#2        20       100        10        10
#3        30       150        12        12
#4        40       200        14        14

如果'countsdata'中的列名和'countsdata'中的'Group'列的顺序相同,我们可以使用Map轻松完成

Map(`/`, countsdata, coldata$Norm)

或者只是复制'Norm'并进行简单的划分

countsdata/coldata$Norm[col(countsdata)]

或者sweep

sweep(countsdata, 2, coldata$Norm, "/")

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM