[英]How to bin numbers in R?
我有一个像这样的数据框:
Col-1:编号。
第2列:范围为0到100。
第3列:价值。
id col-2 value
...
id 10.00 2
id 10.53 2
id 11.11 88
id 11.76 6
id 12.00 2
id 12.12 2
id 12.35 163
id 12.50 6
id 12.90 2
id 13.33 5
id 13.58 366
id 13.64 8
id 14.29 10
id 14.81 725
...
id 100 45
我想制作100格的Col-2,并在该间隔中汇总Col-3中的值。 我怎样才能做到这一点? 例如,输出将如下所示:
id 0-1 sum-value-in-interval
id 1-2 sum-value-in-interval
id 2-3 sum-value-in-interval
...
id 10-11 4
id 11-12 94
...
id 99-100 sum-value-in-interval
谢谢您的帮助!
这是基于dplyr
的解决方案。 让您的数据称为dat
:
library(dplyr)
dat%>%mutate(quantile = ntile(col2,100))%>%group_by(quantile)%>%summarize(sumValueInInterval = sum(col3))
我们可以使用cut
来创建分组变量,将其aggregate
使用以得出'col2'的sum
。
df1$group <- as.character(cut(df1$col2, breaks=1:100))
aggregate(col3~group+id, df1, FUN=sum)
或者可以使用data.table
完成
library(data.table)
setDT(df1)[, group:= cut(col2, breaks=1:100)
][,list(col3= sum(col3)) ,.(group, id)]
set.seed(24)
df1 <- data.frame(id= paste0('id', rep(1:2, each=50)),
col2=rnorm(100, sample(100)), col3= sample(500, 100, replace=TRUE))
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.