[英]Regression and summary statistics by group within a data.table
我想计算一些汇总统计数据,并在数据表中按组执行不同的回归,并以“宽”格式显示结果(即,每组一行,多列)。 我可以分多个步骤进行操作,但似乎应该可以一次完成所有操作。
考虑以下示例数据 :
set.seed=46984
dt <- data.table(ID=c(rep('Frank',5),rep('Tony',5),rep('Ed',5)), y=rnorm(15), x=rnorm(15), z=rnorm(15),key="ID")
dt
# ID y x z
# 1: Ed 0.2129400 -0.3024061 0.845335632
# 2: Ed 0.4850342 -0.5159197 -0.087965415
# 3: Ed 1.8917489 1.7803220 0.760465271
# 4: Ed -0.4330460 -2.1720944 0.973812545
# 5: Ed 0.7685060 0.7947470 1.279761200
# 6: Frank 0.4978475 -0.2906851 0.568101004
# 7: Frank 0.6323386 -0.5596599 1.537133025
# 8: Frank -0.8243218 -0.4354885 0.057818033
# 9: Frank 1.2402488 0.3229422 0.005995249
#10: Frank 0.2436210 -0.2651422 0.349532173
#11: Tony 0.4179568 0.1418463 0.142380549
#12: Tony 0.7036613 0.4402572 0.141237901
#13: Tony -0.1978720 -0.9553784 0.480425820
#14: Tony -1.7269375 -0.1881292 0.370583351
#15: Tony 1.1064903 0.4375014 -0.798221750
假设我想通过ID获取中位数,通过ID对y〜x进行线性回归,并通过ID对y〜x + z进行线性回归。 在这里,我得到中位数:
dt.med <- dt[,list(y.med=median(y)),by=ID]
dt.med
# ID y.med
#1: Ed 0.4850342
#2: Frank 0.4978475
#3: Tony 0.4179568
多亏了@DWin的回答 ,在这里,我通过ID将两套单独的回归系数作为列:
dt.reg.1 <- dt[,as.list(coef(lm(y ~ x))), by=ID]
dt.reg.1
# ID (Intercept) x
#1: Ed 0.63057884 0.5482373
#2: Frank 0.69720351 1.3813007
#3: Tony 0.08588421 1.0179131
dt.reg.2 <- dt[,as.list(coef(lm(y ~ x + z))), by=ID]
dt.reg.2
# ID (Intercept) x z
#1: Ed 0.8262577 0.5587170 -0.2582699
#2: Frank 0.4317538 2.7221024 1.1807442
#3: Tony 0.1494439 0.3166547 -1.2029693
现在,我必须加入三个结果集,并重命名各列:
dt.ans <- dt.med[dt.reg.1][dt.reg.2]
setnames(dt.ans,c("ID","y.med","reg.1.c0","reg.1.c1","reg.2.c0","reg.2.c1","reg.2.c2"))
最后,这是示例的期望输出 :
dt.ans
# ID y.med reg.1.c0 reg.1.c1 reg.2.c0 reg.2.c1 reg.2.c2
#1: Ed 0.4850342 0.63057884 0.5482373 0.8262577 0.5587170 -0.2582699
#2: Frank 0.4978475 0.69720351 1.3813007 0.4317538 2.7221024 1.1807442
#3: Tony 0.4179568 0.08588421 1.0179131 0.1494439 0.3166547 -1.2029693
计算这三个结果,将它们合并,然后重命名列似乎效率低下。 另外,我的实际表比较大,所以我想确保我不使用过多的系统内存。 是否可以在“一个” data.table语句中完成所有这些操作? 或更笼统地说,这可以更有效地完成吗?
我尝试了不同的事情。 这是一个给出中位数但忽略回归系数的失败示例:
dt[,as.list(median(y),coef(lm(y ~ x))), by=ID]
# ID V1
#1: Ed 0.4850342
#2: Frank 0.4978475
#3: Tony 0.4179568
dt[,c(y.med = median(y),
reg.1 = as.list(coef(lm(y ~ x))),
reg.2 = as.list(coef(lm(y ~ x + z)))), by=ID]
# ID y.med reg.1.(Intercept) reg.1.x reg.2.(Intercept) reg.2.x reg.2.z
#1: Ed 0.7280448 0.75977555 0.1132509 0.83322290 -0.484348116 0.7655563
#2: Frank 0.6100339 -0.07830664 0.2700846 0.04720686 0.004027939 0.7168521
#3: Tony 0.2710623 -0.78319379 0.9166601 -0.35836990 0.622822617 0.4161102
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.