在 R 中按條件聚合 dataframe

Question

我在 R 中有以下 DataFrame：

 Y       ...    Price      Year           Quantity      Country    
010190   ...   4781       2021               4           Germany    
010190   ...   367        2021               3           Germany 
010190   ...   4781       2021               6           France    
010190   ...   250        2021               3           France    
020190   ...   690        2021               NA          USA        
020190   ...   10         2021               6           USA  
......         ...         ....              ..          ...   
217834  ...    56        2021                3           USA        
217834 ...     567       2021                9           USA

正如您在Y列中看到的數字以 01.., 02..., 21... 開頭，我想通過考慮不同的分類列（例如Country和Year ）和總和來聚合從 6 位到 2 位的此類行數字列，如Quantity和Price 。 我還想在計算過程中考慮帶有 NA 的行。 所以，最后我想要這樣的 output：

 Y     Price      Year          Quantity   Country
01     5148       2021           7         Germany
01     5031       2021           9          USA
02     700        2021           6          USA
..     ....       ...           ....        ...      
21     623        2021           12         USA

Answer 1

您可以使用group_by並從dplyr summarize

library(dplyr)

df %>% 
  mutate(Y = sprintf(as.numeric(factor(Y, unique(Y))), fmt = '%02d')) %>%
  group_by(Y, Year, Country) %>%
  summarize(across(where(is.numeric), sum))
#> # A tibble: 4 x 5
#> # Groups:   Y, Year [3]
#>    Y      Year Country Price Quantity
#>    <chr> <int> <chr>   <int>    <int>
#>  1 01     2021 France   5031        9
#>  2 01     2021 Germany  5148        7
#>  3 02     2021 USA       700       NA

Answer 2

更新：要求：

library(dplyr)
df %>% 
  mutate(Y = substr(Y, 1, 2)) %>% 
  group_by(Y, Year, Country) %>% 
  summarise(across(c(Price, Quantity), ~sum(., na.rm = TRUE)))

我們可以使用substr從Y和group_by中獲取前兩個字符，並使用sum()進行summarise() )

library(dplyr)
df %>% 
  mutate(Y = substr(Y, 1, 2)) %>% 
  group_by(Y, Year, Country) %>% 
  summarise(Price = sum(Price, na.rm = TRUE),
            Quantity = sum(Quantity, na.rm = TRUE)
            )

  Y      Year Country Price Quantity
  <chr> <dbl> <chr>   <dbl>    <dbl>
1 01     2021 France   5031        9
2 01     2021 Germany  5148        7
3 02     2021 USA       700        6
4 21     2021 USA       623       12

Answer 3

使用aggregate和Y的子substr 。

aggregate(cbind(Quantity, Price) ~ Y + Year + Country, 
          transform(dat, Y=substr(Y, 1, 2)), sum)
#    Y Year Country Quantity Price
# 1 10 2021  France        9  5031
# 2 10 2021 Germany        7  5148
# 3 20 2021     USA        7   700
# 4 21 2021     USA       12   623

數據：

dat <- structure(list(Y = c(10190L, 10190L, 10190L, 10190L, 20190L, 
20190L, 217834L, 217834L), foo = c("...", "...", "...", "...", 
"...", "...", "...", "..."), Price = c(4781L, 367L, 4781L, 250L, 
690L, 10L, 56L, 567L), Year = c(2021L, 2021L, 2021L, 2021L, 2021L, 
2021L, 2021L, 2021L), model = c(NA, NA, NA, NA, NA, NA, "Tesla", 
"Tesla"), Quantity = c(4L, 3L, 6L, 3L, 1L, 6L, 3L, 9L), Country = c("Germany", 
"Germany", "France", "France", "USA", "USA", "USA", "USA")), class = "data.frame", row.names = c(NA, 
-8L))

在 R 中按條件聚合 dataframe

問題描述

3 個解決方案

解決方案1
1 2022-03-28 08:07:27

解決方案2
0 已采納 2022-03-28 08:23:42

解決方案3
0 2022-03-28 08:25:27

在 R 中按條件聚合 dataframe

問題描述

3 個解決方案

解決方案1 1 2022-03-28 08:07:27

解決方案2 0 已采納 2022-03-28 08:23:42

解決方案3 0 2022-03-28 08:25:27

解決方案1
1 2022-03-28 08:07:27

解決方案2
0 已采納 2022-03-28 08:23:42

解決方案3
0 2022-03-28 08:25:27