使用 R 剪切功能 - 中断和标签选项如何工作

Question

我正在寻找“标签是使用“（a，b]”间隔符号构造的）的明确解释 - 如切割帮助文件中所述，这似乎缺乏解释。

Answer 1

所以我测试了一些简单的例子，如下所示：

df <- data.frame(c(1,2,3,4,5,6,7,99))
names(df) <- 'x'
df$cut <- cut(df[ ,1], breaks = c(2,4,6,8), right = TRUE)
df
       x cut
#      1  <NA>
#      2  <NA>
#      3 (2,4]
#      4 (2,4]
#      5 (4,6]
#      6 (4,6]
#      7 (6,8]
#     99  <NA>

所以 '(' 表示 x> 左边的中断，'[' 表示 <= (next) 右边的中断，如果一个值低于最低中断，它被标记为 NA，类似地，如果一个值超过最高中断它也被标记为 NA。

接下来测试选项include.lowest = TRUE

df$cut <- cut(df[ ,1], breaks = c(2,4,6,8), right = TRUE, include.lowest = TRUE)
df
  x   cut
# 1  <NA>
# 2 [2,4]
# 3 [2,4]
# 4 [2,4]
# 5 (4,6]
# 6 (4,6]
# 7 (6,8]

因此，对于前两次中断之间的第一个 bin，左侧的 '[' 表示 >=（第一次中断），而 ']' 表示 <=（第二次）中断。 随后的中断按上述处理。

接下来，可以通过在中断中使用 -Inf 和/或 +Inf 来解决 NA 值，如下所示：

df$cut <- cut(df[ ,1], breaks = c(-Inf,2,4,6,8,+Inf), right = TRUE, include.lowest = TRUE)
df

   x      cut
#  1 [-Inf,2]
#  2 [-Inf,2]
#  3    (2,4]
#  4    (2,4]
#  5    (4,6]
#  6    (4,6]
#  7    (6,8]
# 99 (8, Inf]

根据以下示例设置 right = FALSE 选项会围绕阈值的意义进行交换：

df$cut <- cut(df[ ,1], breaks = c(-Inf,2,4,6,8,+Inf), right = FALSE)
df
#   x      cut
#  1 [-Inf,2)
#  2    [2,4)
#  3    [2,4)
#  4    [4,6)
#  5    [4,6)
#  6    [6,8)
#  7    [6,8)
# 99    [8, Inf)

最后，如果您愿意，标签选项允许阈值的自定义名称......

lbls <- c('x<=2','2<x<=4','4<x<=6','6<x<=8','x>8')
df$cut <- cut(df[ ,1], breaks = c(-Inf,2,4,6,8,+Inf), right = TRUE, include.lowest = TRUE, labels = lbls)
df
   x    cut
#  1   x<=2
#  2   x<=2
#  3 2<x<=4
#  4 2<x<=4
#  5 4<x<=6
#  6 4<x<=6
#  7 6<x<=8
# 99    x>8

使用 R 剪切功能 - 中断和标签选项如何工作

问题描述

1 个解决方案

解决方案1
9 2019-06-23 06:13:23

使用 R 剪切功能 - 中断和标签选项如何工作

问题描述

1 个解决方案

解决方案1 9 2019-06-23 06:13:23

解决方案1
9 2019-06-23 06:13:23