![](/img/trans.png)
[英]R: How to count the number of occurrences of a value across multiple columns?
[英]Count similarity of occurrences across columns R
我有以下數據:
df <- data.frame(
group = c('r1','r2','r3','r4'),
X1 = c('A','B','C','K'),
X2 = c('A','C','M','K'),
X3 = c('D','A','C','K')
)
> df
group X1 X2 X3
1 r1 A A D
2 r2 B C A
3 r3 C M C
4 r4 K K K
我想根據列X1
、 X2
和X3
估計“相似度分數” 。 例如,在group
r1(或第 1 行)中,3 個元素中有 2 個是相似的,因此得分為 2/3(~67%)。 而group
r4(或第 4 行),得分將是 3/3(100%)。 期望的結果如下:
> df
group X1 X2 X3 similarity_score
1 r1 A A D .67
2 r2 B C A .33
3 r3 C M C .67
4 r4 K K K 1
我怎樣才能做到這一點?
另一種可能的解決方案:
library(dplyr)
df %>%
rowwise %>%
mutate(score = max(prop.table(table(c_across(X1:X3))))) %>%
ungroup
#> # A tibble: 4 × 5
#> group X1 X2 X3 score
#> <chr> <chr> <chr> <chr> <dbl>
#> 1 r1 A A D 0.667
#> 2 r2 B C A 0.333
#> 3 r3 C M C 0.667
#> 4 r4 K K K 1
甚至更短:
library(tidyverse)
df %>% mutate(score = pmap_dbl(across(X1:X3), ~ max(prop.table(table(c(...))))))
你可以做
df$similarity <- round(apply(df[-1], 1, function(x) max(table(x))/length(x)), 2)
df
#> group X1 X2 X3 similarity
#> 1 r1 A A D 0.67
#> 2 r2 B C A 0.33
#> 3 r3 C M C 0.67
#> 4 r4 K K K 1.00
由reprex 包(v2.0.1)於 2022-04-18 創建
一個整潔的解決方案:
library(tidyverse)
df %>%
rowwise() %>%
mutate(
similarity_score = max(colMeans(outer(c_across(-group), c_across(-group), `==`)))
)
或者代替c_across
,你可以做一個nest
解決方案:
df %>%
group_by(group) %>%
nest(data = -group) %>%
rowwise() %>%
mutate(
similarity_score = max(colMeans(outer(unlist(data), unlist(data), `==`)))
) %>%
unnest(data)
group X1 X2 X3 similarity_score
<chr> <chr> <chr> <chr> <dbl>
1 r1 A A D 0.667
2 r2 B C A 0.333
3 r3 C M C 0.667
4 r4 K K K 1
作為另一種選擇,我們可以一次存儲所有出現的事件(而不是按行操作):
tab = table(rep(df[, 1], ncol(df) - 1), as.matrix(df[, -1]))
然后,檢索每行中最多元素的比例:
tab = tab / rowSums(tab)
tab[cbind(1:nrow(df), max.col(tab))]
#[1] 0.6666667 0.3333333 0.6666667 1.0000000
另一種可能的選擇是先旋轉更長的時間進行匯總,然后再加入數據框。
library(tidyverse)
df %>%
left_join(pivot_longer(., -group) %>%
group_by(group) %>%
summarise(score = round(max(table(value))/length(value), 2)))
輸出
group X1 X2 X3 score
1 r1 A A D 0.67
2 r2 B C A 0.33
3 r3 C M C 0.67
4 r4 K K K 1.00
這是base R中的另一種方式:
df$score <- round(sapply(apply(df[,c(2:4)], 1, table), first) / 3, 2)
# group X1 X2 X3 similarity_score
# 1 r1 A A D 0.67
# 2 r2 B C A 0.33
# 3 r3 C M C 0.67
# 4 r4 K K K 1.00
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.