Group_by 並匯總並保留初始順序而不排列 R

Question

我需要在group_by和summarise之后保留行順序。

這是初始數據集：


movmnt_id <- c("101", "101", "351", "601","601","351")
plant <- c("F5P", "F5D", "F5P", "F5D","F5D", "RUP")
loc <- c("CB00", "CB00", "CB00", "CB00","CB00","MOS1")
qty <- c(100, 100,100,10,90,88)
date <- c("2018-01-05","2018-01-05","2018-01-05","2018-01-11","2018-01-11","2018-01-22" )
time <- c("10:38:38","10:47:17", "10:47:09","17:20:31","17:20:24","12:00:54" )


df <-  data.frame(movmnt_id,  plant, loc, qty,date, time)
df

  movmnt_id  plant  loc   qty       date     time
1       101   F5P  CB00   100   2018-01-05   10:38:38
2       101   F5D  CB00   100   2018-01-05   10:47:17
3       351   F5P  CB00   100   2018-01-05   10:47:09
4       601   F5D  CB00    10   2018-01-11   17:20:31
5       601   F5D  CB00    90   2018-01-11   17:20:24
6       351   RUP  MOS1    88   2018-01-22   12:00:54

我需要先根據具體條件下單（這里的數據集和條件都大大簡化了）。 我這樣做：

df2 <- df %>%
  
  dplyr::group_by( movmnt_id, plant, loc,date,time) %>%
  dplyr::summarise(total_qty = sum(qty)) %>%
  dplyr::arrange( date,time) %>%
  dplyr::ungroup()

df2

  movmnt_id plant loc   date       time     total_qty
  <fct>     <fct> <fct> <fct>      <fct>        <dbl>
1 101       F5P   CB00  2018-01-05 10:38:38       100
2 351       F5P   CB00  2018-01-05 10:47:09       100
3 101       F5D   CB00  2018-01-05 10:47:17       100
4 601       F5D   CB00  2018-01-11 17:20:24        90
5 601       F5D   CB00  2018-01-11 17:20:31        10
6 351       RUP   MOS1  2018-01-22 12:00:54        88

這個結果是可以的。 然后我需要刪除timestamp並按數量summarise 。
我的最后一次嘗試看起來像這樣：

df3  <- df2 %>%
  dplyr::group_by( movmnt_id, plant, loc,date) %>%
  dplyr::summarise(total_qty = sum(total_qty)) %>%
  dplyr::ungroup()

df3

  movmnt_id plant loc   date       total_qty
  <fct>     <fct> <fct> <fct>          <dbl>
1 101       F5D   CB00  2018-01-05       100
2 101       F5P   CB00  2018-01-05       100
3 351       F5P   CB00  2018-01-05       100
4 351       RUP   MOS1  2018-01-22        88
5 601       F5D   CB00  2018-01-11       100

這不行 - 我失去了之前的訂單。

我需要的是movmnt_id = 601的一行，並且與 df2 中的順序相同，日期為 2018-01-05 的movmnt_id = 351應該在同一日期的移動 101 之間：

  movmnt_id plant loc   date       time     total_qty
  <fct>     <fct> <fct> <fct>      <fct>        <dbl>
1 101       F5P   CB00  2018-01-05 10:38:38       100
2 351       F5P   CB00  2018-01-05 10:47:09       100
3 101       F5D   CB00  2018-01-05 10:47:17       100
4 601       F5D   CB00  2018-01-11 17:20:24       100
5 351       RUP   MOS1  2018-01-22 12:00:54        88

基本上，如果分組條件中的所有值都相同，除了 qty - 這些行可以相加，但如果不是 - 必須保持順序。

我該怎么做？

Answer 1

要保持與df2相同的順序，您可以創建唯一鍵並match 。

cols <- c('movmnt_id', 'plant', 'loc', 'date')
df3 <- df3[order(match(do.call(paste, df3[cols]), do.call(paste, df2[cols]))), ]
df3

# movmnt_id plant loc   date       total_qty
#  <chr>     <chr> <chr> <chr>          <dbl>
#1 101       F5P   CB00  2018-01-05       100
#2 351       F5P   CB00  2018-01-05       100
#3 101       F5D   CB00  2018-01-05       100
#4 601       F5D   CB00  2018-01-11       100
#5 351       RUP   MOS1  2018-01-22        88

Answer 2

在這里，我按時間順序為 id / plant / loc 組合創建了一個有序因子，這里稱為“key”。 然后當我們通過它聚合時（使用 count 代替group_by %>% summarize的快捷方式），並且 count 使用它來訂購 output。

library(forcats)  # alternatively, load with library(tidyverse)
df %>%
  arrange(date, time) %>%
  mutate(key = paste(movmnt_id, plant, loc) %>% as_factor %>% fct_inorder()) %>%
  count(key, date, movmnt_id, plant, loc, wt = qty, name = "total_qty")

           key       date movmnt_id plant  loc total_qty
1 101 F5P CB00 2018-01-05       101   F5P CB00       100
2 351 F5P CB00 2018-01-05       351   F5P CB00       100
3 101 F5D CB00 2018-01-05       101   F5D CB00       100
4 601 F5D CB00 2018-01-11       601   F5D CB00       100
5 351 RUP MOS1 2018-01-22       351   RUP MOS1        88

Answer 3

隱含地，您希望維護由 date 變量給出的順序。 在group_by arguments 中首先列出date ，以確保summarise命令使用date作為主鍵。

df %>%
  group_by(date, movmnt_id, plant, loc) %>%
  summarise(total_qty = sum(qty)) %>%
  ungroup()
#> `summarise()` has grouped output by 'date', 'movmnt_id', 'plant'. You can override using the `.groups` argument.
#> # A tibble: 5 x 5
#>   date       movmnt_id plant loc   total_qty
#>   <chr>      <chr>     <chr> <chr>     <dbl>
#> 1 2018-01-05 101       F5D   CB00        100
#> 2 2018-01-05 101       F5P   CB00        100
#> 3 2018-01-05 351       F5P   CB00        100
#> 4 2018-01-11 601       F5D   CB00        100
#> 5 2018-01-22 351       RUP   MOS1         88

Group_by 並匯總並保留初始順序而不排列 R

問題描述

3 個解決方案

解決方案1
1 2021-05-14 05:26:53

解決方案2
1 已采納 2021-05-14 06:53:02

解決方案3
0 2021-05-14 06:17:17

Group_by 並匯總並保留初始順序而不排列 R

問題描述

3 個解決方案

解決方案1 1 2021-05-14 05:26:53

解決方案2 1 已采納 2021-05-14 06:53:02

解決方案3 0 2021-05-14 06:17:17

解決方案1
1 2021-05-14 05:26:53

解決方案2
1 已采納 2021-05-14 06:53:02

解決方案3
0 2021-05-14 06:17:17