在R中對行進行有序分組

Question

我想創建一個新列，按順序標記行組。 原始數據：

> dt = data.table(index=(1:10), group = c("apple","apple","orange","orange","orange","orange","apple","apple","orange","apple"))
> dt
    index  group
 1:     1  apple
 2:     2  apple
 3:     3 orange
 4:     4 orange
 5:     5 orange
 6:     6 orange
 7:     7  apple
 8:     8  apple
 9:     9 orange
10:    10  apple

期望的輸出：

    index  group id
 1:     1  apple  1
 2:     2  apple  1
 3:     3 orange  1
 4:     4 orange  1
 5:     5 orange  1
 6:     6 orange  1
 7:     7  apple  2
 8:     8  apple  2
 9:     9 orange  2
10:    10  apple  3

dplyr嘗試：

dt %>% group_by(group) %>% mutate( id= row_number())
# A tibble: 10 x 3
# Groups:   group [2]
   index group     id
   <int> <chr>  <int>
 1     1 apple      1
 2     2 apple      2
 3     3 orange     1
 4     4 orange     2
 5     5 orange     3
 6     6 orange     4
 7     7 apple      3
 8     8 apple      4
 9     9 orange     5
10    10 apple      5

如何編輯這個以使第一組蘋果為1，然后第一組橙子為1，然后第二組蘋果為2等（參見上面的所需輸出）。 也對data.table解決方案開放。

Answer 1

library(data.table)
dt[, id := cumsum(c(TRUE, diff(index) > 1)), by="group"]
dt
#     index  group id
#  1:     1  apple  1
#  2:     2  apple  1
#  3:     3 orange  1
#  4:     4 orange  1
#  5:     5 orange  1
#  6:     6 orange  1
#  7:     7  apple  2
#  8:     8  apple  2
#  9:     9 orange  2
# 10:    10  apple  3

從原來的dt開始：

library(dplyr)
dt %>%
  group_by(group) %>%
  mutate(id = cumsum(c(TRUE, diff(index) > 1))) %>%
  ungroup()
# # A tibble: 10 x 3
#    index group     id
#    <int> <chr>  <int>
#  1     1 apple      1
#  2     2 apple      1
#  3     3 orange     1
#  4     4 orange     1
#  5     5 orange     1
#  6     6 orange     1
#  7     7 apple      2
#  8     8 apple      2
#  9     9 orange     2
# 10    10 apple      3

基地R，也許有點笨重：

out <- do.call(rbind, by(dt, dt$group,
                         function(x) transform(x, id = cumsum(c(TRUE, diff(index) > 1)))))
out[order(out$index),]
#          index  group id
# apple.1      1  apple  1
# apple.2      2  apple  1
# orange.3     3 orange  1
# orange.4     4 orange  1
# orange.5     5 orange  1
# orange.6     6 orange  1
# apple.7      7  apple  2
# apple.8      8  apple  2
# orange.9     9 orange  2
# apple.10    10  apple  3

使用rownames(out) <- NULL可以輕松刪除名稱。 order部分不是必需的，但我希望以與其他解決方案相同的順序呈現它，而do.call / by不保留原始訂單。

Answer 2

使用data.table::rleid兩次的另一個選項：

dt[, gid := rleid(group)][, id := rleid(gid), .(group)]

Answer 3

我們也可以使用base R rle

with(dt, with(rle(group), rep(ave(seq_along(values),
            values, FUN = seq_along), lengths)))
#[1] 1 1 1 1 1 1 2 2 2 3

在R中對行進行有序分組

問題描述

3 個解決方案

解決方案1
5 已采納 2019-07-22 23:52:32

解決方案2
2 2019-07-23 01:09:46

解決方案3
1 2019-07-23 02:45:51

在R中對行進行有序分組

問題描述

3 個解決方案

解決方案1 5 已采納 2019-07-22 23:52:32

解決方案2 2 2019-07-23 01:09:46

解決方案3 1 2019-07-23 02:45:51

解決方案1
5 已采納 2019-07-22 23:52:32

解決方案2
2 2019-07-23 01:09:46

解決方案3
1 2019-07-23 02:45:51