有沒有更有效的方法來處理在 R 數據幀中重復的事實？

Question

我有一個看起來像這樣的數據框：

ID <- c(1,1,1,2,2,2,2,3,3,3,3)
Fact <- c(233,233,233,50,50,50,50,15,15,15,15)
Overall_Category <- c("Purchaser","Purchaser","Purchaser","Car","Car","Car","Car","Car","Car","Car","Car")
Descriptor <- c("Country", "Gender", "Eyes", "Color", "Financed", "Type", "Transmission", "Color", "Financed", "Type", "Transmission")
Members <- c("America", "Male", "Brown", "Red", "Yes", "Sedan", "Manual", "Blue","No", "Van", "Automatic")

df <- data.frame(ID, Fact, Overall_Category, Descriptor, Members)

數據框維度的工作方式如下：

總會有一個 ID/key 唯一地和唯一地標識提交的事實
給定事實總是有一個維度來定義提交的事實所屬的 Total_Category。
大多數時候——但並非總是如此——“描述符”會有一個維度，
如果有一個“描述”尺寸對於一個給定的事實，就會有另一個“成員”的尺寸，以示“描述”中可能的成員。

問題在於，根據應用於給定事實的維度數量，針對給定 ID 重復提交的單個事實。 我想要的是一種根據其 ID 僅顯示一次事實的方法，並將適用的維度存儲在該單個 ID 上。

我通過這樣做實現了它：

df1 <- pivot_wider(df, 
id_cols = ID,
names_from = c(Overall_Category, Descriptor, Members),
names_prefix = "zzzz",
values_from = Fact,
names_sep = "-",
names_repair = "unique")

ColumnNames <- df1 %>% select(matches("zzzz")) %>% colnames()


df2 <- df1 %>% mutate(mean_sel = rowMeans(select(., ColumnNames), na.rm = T))
df3 <- df2 %>% mutate_at(ColumnNames, function(x) ifelse(!is.na(x), deparse(substitute(x)), NA))
df3 <- df3 %>% unite('Descriptor', ColumnNames, na.rm = T, sep = "_")
df3 <- df3 %>% mutate_at("Descriptor", str_replace_all, "zzzz", "")

但是由於pivot_wide，它似乎不能很好地擴展具有多個維度的事實，並且通常看起來不是一種非常有效的方法。

有一個更好的方法嗎？

Answer 1

我認為你想要帶有sep和collapse參數的簡單paste

library(dplyr, warn.conflicts = F)

df %>% group_by(ID, Fact) %>%
  summarise(Descriptor = paste(paste(Overall_Category, Descriptor, Members, sep = '-'), collapse = '_'), .groups = 'drop')

# A tibble: 3 x 3
     ID  Fact Descriptor                                                            
  <dbl> <dbl> <chr>                                                                 
1     1   233 Purchaser-Country-America_Purchaser-Gender-Male_Purchaser-Eyes-Brown  
2     2    50 Car-Color-Red_Car-Financed-Yes_Car-Type-Sedan_Car-Transmission-Manual 
3     3    15 Car-Color-Blue_Car-Financed-No_Car-Type-Van_Car-Transmission-Automatic

Answer 2

您可以unite的列和每個ID它們組合在一起，並采取平均的Fact值。

library(dplyr)
library(tidyr)

df %>%
  unite(Descriptor, Overall_Category:Members, sep = '-', na.rm = TRUE) %>%
  group_by(ID) %>%
  summarise(Descriptor = paste0(Descriptor, collapse = '_'), 
            mean_sel = mean(Fact, na.rm = TRUE))

#     ID Descriptor                                               mean_sel
#  <dbl> <chr>                                                       <dbl>
#1     1 Purchaser-Country-America_Purchaser-Gender-Male_Purchas…      233
#2     2 Car-Color-Red_Car-Financed-Yes_Car-Type-Sedan_Car-Trans…       50
#3     3 Car-Color-Blue_Car-Financed-No_Car-Type-Van_Car-Transmi…       15

Answer 3

str_c一個選項

library(dplyr)
library(stringr)
df %>%
   group_by(ID, Fact) %>%
   summarise(Descriptor = str_c(Overall_Category, Descriptor, Members, sep= "-", collapse="_"), .groups = 'drop')

有沒有更有效的方法來處理在 R 數據幀中重復的事實？

問題描述

3 個解決方案

解決方案1
1 2021-07-10 11:31:09

解決方案2
1 已采納 2021-07-10 11:37:59

解決方案3
1 2021-07-10 19:12:23

有沒有更有效的方法來處理在 R 數據幀中重復的事實？

問題描述

3 個解決方案

解決方案1 1 2021-07-10 11:31:09

解決方案2 1 已采納 2021-07-10 11:37:59

解決方案3 1 2021-07-10 19:12:23

解決方案1
1 2021-07-10 11:31:09

解決方案2
1 已采納 2021-07-10 11:37:59

解決方案3
1 2021-07-10 19:12:23