重复每一行 data.frame 列中指定的次数

Question

df <- data.frame(var1 = c('a', 'b', 'c'), var2 = c('d', 'e', 'f'),
                 freq = 1:3)

将每一行扩展为上面data.frame的前两列的最简单方法是什么，以便每一行重复“freq”列中指定的次数？

换句话说，从这里开始：

df
  var1 var2 freq
1    a    d    1
2    b    e    2
3    c    f    3

对此：

df.expanded
  var1 var2
1    a    d
2    b    e
3    b    e
4    c    f
5    c    f
6    c    f

Answer 1

这是一个解决方案：

df.expanded <- df[rep(row.names(df), df$freq), 1:2]

结果：

    var1 var2
1      a    d
2      b    e
2.1    b    e
3      c    f
3.1    c    f
3.2    c    f

Answer 2

老问题，tidyverse 中的新动词：

library(tidyr) # version >= 0.8.0
df <- data.frame(var1=c('a', 'b', 'c'), var2=c('d', 'e', 'f'), freq=1:3)
df %>% 
  uncount(freq)

    var1 var2
1      a    d
2      b    e
2.1    b    e
3      c    f
3.1    c    f
3.2    c    f

Answer 3

使用splitstackshape包中的expandRows() ：

library(splitstackshape)
expandRows(df, "freq")

简单的语法，非常快，适用于data.frame或data.table 。

结果：

    var1 var2
1      a    d
2      b    e
2.1    b    e
3      c    f
3.1    c    f
3.2    c    f

Answer 4

@neilfws 的解决方案适用于data.frame ，但不适用于data.table ，因为它们缺少row.names属性。 这种方法适用于两者：

df.expanded <- df[rep(seq(nrow(df)), df$freq), 1:2]

data.table的代码更简洁：

# convert to data.table by reference
setDT(df)
df.expanded <- df[rep(seq(.N), freq), !"freq"]

Answer 5

我知道情况并非如此，但如果您需要保留原始 freq 列，您可以使用另一种tidyverse方法和rep ：

library(purrr)

df <- data.frame(var1 = c('a', 'b', 'c'), var2 = c('d', 'e', 'f'), freq = 1:3)

df %>% 
  map_df(., rep, .$freq)
#> # A tibble: 6 x 3
#>   var1  var2   freq
#>   <fct> <fct> <int>
#> 1 a     d         1
#> 2 b     e         2
#> 3 b     e         2
#> 4 c     f         3
#> 5 c     f         3
#> 6 c     f         3

^{由reprex 包（v0.3.0）于 2019 年 12 月 21 日创建}

Answer 6

另一个带有slice的dplyr替代方案，我们重复每个行号freq次

library(dplyr)

df %>%  
  slice(rep(seq_len(n()), freq)) %>% 
  select(-freq)

#  var1 var2
#1    a    d
#2    b    e
#3    b    e
#4    c    f
#5    c    f
#6    c    f

seq_len(n())部分可以替换为以下任何内容。

df %>% slice(rep(1:nrow(df), freq)) %>% select(-freq)
#Or
df %>% slice(rep(row_number(), freq)) %>% select(-freq)
#Or
df %>% slice(rep(seq_len(nrow(.)), freq)) %>% select(-freq)

Answer 7

如果您必须在非常大的 data.frames 上执行此操作，我建议将其转换为 data.table 并使用以下内容，它应该运行得更快：

library(data.table)
dt <- data.table(df)
dt.expanded <- dt[ ,list(freq=rep(1,freq)),by=c("var1","var2")]
dt.expanded[ ,freq := NULL]
dt.expanded

看看这个解决方案有多快：

df <- data.frame(var1=1:2e3, var2=1:2e3, freq=1:2e3)
system.time(df.exp <- df[rep(row.names(df), df$freq), 1:2])
##    user  system elapsed 
##    4.57    0.00    4.56
dt <- data.table(df)
system.time(dt.expanded <- dt[ ,list(freq=rep(1,freq)),by=c("var1","var2")])
##    user  system elapsed 
##    0.05    0.01    0.06

Answer 8

另一种可能性是使用tidyr::expand ：

library(dplyr)
library(tidyr)

df %>% group_by_at(vars(-freq)) %>% expand(temp = 1:freq) %>% select(-temp)

#> # A tibble: 6 x 2
#> # Groups:   var1, var2 [3]
#>   var1  var2 
#>   <fct> <fct>
#> 1 a     d    
#> 2 b     e    
#> 3 b     e    
#> 4 c     f    
#> 5 c     f    
#> 6 c     f

vonjd 答案的单行版本：

library(data.table)

setDT(df)[ ,list(freq=rep(1,freq)),by=c("var1","var2")][ ,freq := NULL][]

#>    var1 var2
#> 1:    a    d
#> 2:    b    e
#> 3:    b    e
#> 4:    c    f
#> 5:    c    f
#> 6:    c    f

^{由reprex 包（v0.2.1）于 2019 年 5 月 21 日创建}

Answer 9

实际上。 使用向量和索引的方法。 我们也可以达到同样的效果，而且更容易理解：

rawdata <- data.frame('time' = 1:3, 
           'x1' = 4:6,
           'x2' = 7:9,
           'x3' = 10:12)

rawdata[rep(1, time=2), ] %>% remove_rownames()
#  time x1 x2 x3
# 1    1  4  7 10
# 2    1  4  7 10

重复每一行 data.frame 列中指定的次数

问题描述

9 个解决方案

解决方案1
192 已采纳 2010-05-24 05:01:19

解决方案2
93 2018-02-01 21:12:02

解决方案3
47 2015-05-11 16:18:45

解决方案4
25 2014-12-11 23:01:08

解决方案5
7 2019-12-21 03:54:32

解决方案6
6 2019-07-08 06:20:00

解决方案7
5 2015-07-06 10:18:52

解决方案8
4 2019-05-21 20:14:25

解决方案9
1 2020-12-02 05:54:48

重复每一行 data.frame 列中指定的次数

问题描述

9 个解决方案

解决方案1 192 已采纳 2010-05-24 05:01:19

解决方案2 93 2018-02-01 21:12:02

解决方案3 47 2015-05-11 16:18:45

解决方案4 25 2014-12-11 23:01:08

解决方案5 7 2019-12-21 03:54:32

解决方案6 6 2019-07-08 06:20:00

解决方案7 5 2015-07-06 10:18:52

解决方案8 4 2019-05-21 20:14:25

解决方案9 1 2020-12-02 05:54:48

解决方案1
192 已采纳 2010-05-24 05:01:19

解决方案2
93 2018-02-01 21:12:02

解决方案3
47 2015-05-11 16:18:45

解决方案4
25 2014-12-11 23:01:08

解决方案5
7 2019-12-21 03:54:32

解决方案6
6 2019-07-08 06:20:00

解决方案7
5 2015-07-06 10:18:52

解决方案8
4 2019-05-21 20:14:25

解决方案9
1 2020-12-02 05:54:48