計算列 R 中出現的相似性

Question

我有以下數據：

df <- data.frame(
  group = c('r1','r2','r3','r4'),
  X1 = c('A','B','C','K'),
  X2 = c('A','C','M','K'),
  X3 = c('D','A','C','K')
)

> df
  group X1 X2 X3
1    r1  A  A  D
2    r2  B  C  A
3    r3  C  M  C
4    r4  K  K  K

我想根據列X1 、 X2和X3估計“相似度分數” 。 例如，在group r1（或第 1 行）中，3 個元素中有 2 個是相似的，因此得分為 2/3（~67%）。 而group r4（或第 4 行），得分將是 3/3（100%）。 期望的結果如下：

> df
  group X1 X2 X3 similarity_score
1    r1  A  A  D .67
2    r2  B  C  A .33
3    r3  C  M  C .67
4    r4  K  K  K 1

我怎樣才能做到這一點？

Answer 1

另一種可能的解決方案：

library(dplyr)

df %>% 
  rowwise %>% 
  mutate(score = max(prop.table(table(c_across(X1:X3))))) %>% 
  ungroup

#> # A tibble: 4 × 5
#>   group X1    X2    X3    score
#>   <chr> <chr> <chr> <chr> <dbl>
#> 1 r1    A     A     D     0.667
#> 2 r2    B     C     A     0.333
#> 3 r3    C     M     C     0.667
#> 4 r4    K     K     K     1

甚至更短：

library(tidyverse)
df %>% mutate(score = pmap_dbl(across(X1:X3), ~ max(prop.table(table(c(...))))))

Answer 2

你可以做

df$similarity <- round(apply(df[-1], 1, function(x) max(table(x))/length(x)), 2)

df
#>   group X1 X2 X3 similarity
#> 1    r1  A  A  D       0.67
#> 2    r2  B  C  A       0.33
#> 3    r3  C  M  C       0.67
#> 4    r4  K  K  K       1.00

^{由reprex 包（v2.0.1）於 2022-04-18 創建}

Answer 3

一個整潔的解決方案：

library(tidyverse)

df %>% 
  rowwise() %>% 
  mutate(
    similarity_score = max(colMeans(outer(c_across(-group), c_across(-group), `==`)))
  )

或者代替c_across ，你可以做一個nest解決方案：

df %>% 
  group_by(group) %>% 
  nest(data = -group) %>% 
  rowwise() %>% 
  mutate(
    similarity_score = max(colMeans(outer(unlist(data), unlist(data), `==`)))
  ) %>% 
  unnest(data)

  group X1    X2    X3    similarity_score
  <chr> <chr> <chr> <chr>            <dbl>
1 r1    A     A     D                0.667
2 r2    B     C     A                0.333
3 r3    C     M     C                0.667
4 r4    K     K     K                1

Answer 4

作為另一種選擇，我們可以一次存儲所有出現的事件（而不是按行操作）：

tab = table(rep(df[, 1], ncol(df) - 1), as.matrix(df[, -1]))

然后，檢索每行中最多元素的比例：

tab = tab / rowSums(tab)
tab[cbind(1:nrow(df), max.col(tab))]
#[1] 0.6666667 0.3333333 0.6666667 1.0000000

Answer 5

另一種可能的選擇是先旋轉更長的時間進行匯總，然后再加入數據框。

library(tidyverse)

df %>%
  left_join(pivot_longer(., -group) %>%
              group_by(group) %>%
              summarise(score = round(max(table(value))/length(value), 2)))

輸出

  group X1 X2 X3 score
1    r1  A  A  D  0.67
2    r2  B  C  A  0.33
3    r3  C  M  C  0.67
4    r4  K  K  K  1.00

Answer 6

這是base R中的另一種方式：

df$score <- round(sapply(apply(df[,c(2:4)], 1, table), first) / 3, 2) 

#   group X1 X2 X3 similarity_score
# 1    r1  A  A  D             0.67
# 2    r2  B  C  A             0.33
# 3    r3  C  M  C             0.67
# 4    r4  K  K  K             1.00

計算列 R 中出現的相似性

問題描述

6 個解決方案

解決方案1
18 已采納 2022-04-18 16:32:32

解決方案2
13 2022-04-18 16:21:12

解決方案3
11 2022-04-18 16:24:47

解決方案4
6 2022-04-18 18:37:53

解決方案5
5 2022-04-18 21:37:24

解決方案6
1 2022-04-19 13:21:24

計算列 R 中出現的相似性

問題描述

6 個解決方案

解決方案1 18 已采納 2022-04-18 16:32:32

解決方案2 13 2022-04-18 16:21:12

解決方案3 11 2022-04-18 16:24:47

解決方案4 6 2022-04-18 18:37:53

解決方案5 5 2022-04-18 21:37:24

解決方案6 1 2022-04-19 13:21:24

解決方案1
18 已采納 2022-04-18 16:32:32

解決方案2
13 2022-04-18 16:21:12

解決方案3
11 2022-04-18 16:24:47

解決方案4
6 2022-04-18 18:37:53

解決方案5
5 2022-04-18 21:37:24

解決方案6
1 2022-04-19 13:21:24