如何根据 R 中的列值范围拆分数据框？

Question

我有一个这样的数据集：

Users   Age
1        2
2        7
3        10
4        3
5        8
6        20

如何将此数据集拆分为 3 个数据集，其中第一个包含年龄在 0-5 岁之间的所有用户，第二个是 6-10 岁，第三个是 11-15 岁？

Answer 1

您可以将split与cut结合起来在一行代码中完成此操作，从而避免使用针对不同数据范围的一系列不同表达式进行子集化的需要：

split(dat, cut(dat$Age, c(0, 5, 10, 15), include.lowest=TRUE))
# $`[0,5]`
#   Users Age
# 1     1   2
# 4     4   3
# 
# $`(5,10]`
#   Users Age
# 2     2   7
# 3     3  10
# 5     5   8
# 
# $`(10,15]`
# [1] Users Age  
# <0 rows> (or 0-length row.names)

cut根据指定的断点split数据， split根据提供的类别拆分数据框。 如果将此计算的结果存储到名为l的列表中，则可以使用l[[1]] 、 l[[2]]和l[[3]]或更详细地访问较小的数据帧：

l$`[0,5]`
l$`(5,10]`
l$`(10, 15]`

Answer 2

首先，这是我的数据集： foo=data.frame(Users=1:6,Age=c(2,7,10,3,8,20))

这是您的第一个年龄为 0-5 岁的数据集： subset(foo,Age<=5&Age>=0)

  Users Age
1     1   2
4     4   3

这是你 6-10 岁的第二个： subset(foo,Age<=10&Age>=6)

  Users Age
2     2   7
3     3  10
5     5   8

你的第三个（使用subset(foo,Age<=15&Age>=11) ）是空的——你最后一次观察Age超过 15 岁。

另请注意，将排除 5 到 6 或 10 到 11 之间的小数年龄（例如，5.1、10.5），因为此代码非常符合您的问题。 如果您希望年龄小于 6 岁的人进入第一组，只需将该代码修改为subset(foo,Age<6&Age>=0) 。 如果您更喜欢第二组中Age=5.1的假设人，则该组的代码将是subset(foo,Age<=10&Age>5) 。

Answer 3

我们也可以使用data.table包中的between函数。

# Create a data frame
dat <- data.frame(Users = 1:7, Age = c(2, 7, 10, 3, 8, 12, 15))

# Convert the data frame to data table by reference
# (data.table is also a data.frame)
setDT(dat)

# Define a list with the cut pairs
cuts <- list(c(0, 5), c(6, 10), c(11, 15))

# Cycle through dat and cut it into list of data tables by the values in Age
# matching the defined cuts
lapply(X = cuts, function(i) {
  dat[between(x = dat[ , Age], lower = i[1], upper = i[2])]
})

输出：

[[1]]
   Users Age
1:     1   2
2:     4   3

[[2]]
   Users Age
1:     2   7
2:     3  10
3:     5   8

[[3]]
   Users Age
1:     6  12
2:     7  15

许多其他事情都是可能的，包括按组进行， data.table相当灵活。

如何根据 R 中的列值范围拆分数据框？

问题描述

3 个解决方案

解决方案1
12 2014-07-12 00:11:19

解决方案2
1 2014-07-11 23:43:57

解决方案3
0 2020-02-10 20:13:39

如何根据 R 中的列值范围拆分数据框？

问题描述

3 个解决方案

解决方案1 12 2014-07-12 00:11:19

解决方案2 1 2014-07-11 23:43:57

解决方案3 0 2020-02-10 20:13:39

解决方案1
12 2014-07-12 00:11:19

解决方案2
1 2014-07-11 23:43:57

解决方案3
0 2020-02-10 20:13:39