繁体   English   中英

将一定范围的值划分为等长的区间:cut vs cut2

[英]divide a range of values in bins of equal length: cut vs cut2

我正在使用cut函数将数据分成相等的bin,它可以完成工作,但是我对返回值的方式不满意。 我需要的是垃圾箱的中心,而不是上下两端。
我也尝试过使用cut2{Hmisc} ,这给了我每个bin的中心,但是它将数据范围划分为bin中包含相同数量的观察值,而不是相同长度的数据。

有人对此有解决方案吗?

像这样,让自己休息一下并贴上标签并不难。 在这里,由于中点是单个数字,因此我实际上没有返回带有标签的因数,而是返回了一个数字向量。

cut2 <- function(x, breaks) {
  r <- range(x)
  b <- seq(r[1], r[2], length=2*breaks+1)
  brk <- b[0:breaks*2+1]
  mid <- b[1:breaks*2]
  brk[1] <- brk[1]-0.01
  k <- cut(x, breaks=brk, labels=FALSE)
  mid[k]
}

可能有一种更好的方法来获取垃圾箱中断和中点; 我没有很难考虑。

注意,这个答案与约书亚的答案不同。 他给出了每个分类中数据的中位数,而给出了每个分类中的数据中心。

> head(cut2(x,3))
[1] 16.666667  3.333333 16.666667  3.333333 16.666667 16.666667
> head(ave(x, cut(x,3), FUN=median))
[1] 18  2 18  2 18 18

像这样使用ave

set.seed(21)
x <- sample(0:20, 100, replace=TRUE)
xCenter <- ave(x, cut(x,3), FUN=median)

我们可以使用smart_cut从包cutr

devtools::install_github("moodymudskipper/cutr")
library(cutr)

使用@Joshua的样本数据:

中位数按间隔(与@Joshua相同,但有序因数):

smart_cut(x,3, "n_intervals", labels= ~ median(.))
# [1] 18 2  18 2  18 18 ...
# Levels: 2 < 11 < 18

每个间隔的中心(与@Aaron相同,但它是有序因子):

smart_cut(x,3, "n_intervals", labels= ~ mean(.y))
# [1] 16.67 3.333 16.67 3.333 16.67 16.67 ...
# Levels: 3.333 < 10 < 16.67

间隔的平均值:

smart_cut(x,3, "n_intervals", labels= ~ mean(.))
# [1] 17.48 2.571 17.48 2.571 17.48 17.48 ...
# Levels: 2.571 < 11.06 < 17.48

labels可以是一个字符向量,就像base::cut.default ,但也可以是2个参数的函数,第一个是bin中包含的值,第二个是垃圾箱。

有关cutr和smart_cut的更多信息

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM