R - 按組計算不匹配

Question

我想知道如何按組計算不匹配的情況。

讓我們想象這是我的數據：

sek = rbind(c(1, 'a', 'a', 'a'), 
        c(1, 'a', 'a', 'a'), 
        c(2, 'b', 'b', 'b'), 
        c(2, 'c', 'b', 'b'))

colnames(sek) <- c('Group', paste('t', 1:3, sep = ''))

數據看起來像這樣

     Group t1  t2  t3 
[1,] "1"   "a" "a" "a"
[2,] "1"   "a" "a" "a"
[3,] "2"   "b" "b" "b"
[4,] "2"   "c" "b" "b"

為了獲得類似的東西

Group 1 : 0 
Group 2 : 1

使用stringdist庫來計算它是很奇怪的。

就像是

seqdistgroupStr = function(x) stringdistmatrix(x, method = 'hamming')

sek %>% 
  as.data.frame() %>% 
  group_by(Group) %>% 
  seqdistgroupStr()

但它沒有用。

有任何想法嗎？

快速更新 ：您如何解決權重問題？ 例如，在兩個字符之間設置錯誤匹配時，如何傳遞參數 - 值（1,2,3，...）。 像B和C 2的成本之間的不匹配 ，而a和c成本1等之間的不匹配 。

Answer 1

這是另一個dplyr解決方案，不需要將數據轉換為長/寬形式：

library(dplyr)
sek = rbind(c(1, 'a', 'a', 'a'), 
            c(1, 'a', 'a', 'a'), 
            c(2, 'b', 'b', 'b'), 
            c(2, 'c', 'b', 'b')) %>%
    data.frame

colnames(sek) <- c('Group', paste('t', 1:3, sep = ''))

sek %>% 
    group_by(Group) %>%
    distinct(t1, t2, t3) %>%
    summarise(number_of_mismatches = n() - 1)

Answer 2

下面的代碼將按組給出不匹配的數量，其中不匹配定義為每個級別的每個級別t1，t2等中的唯一值的數量少一個。 我認為只有當你需要的不僅僅是二進制不匹配度量時，你才需要引入一個字符串距離度量，但二進制度量就足以滿足你給出的例子。 此外，如果你想要的只是每組中不同行的數量，那么@ Alex的解決方案更簡潔。

library(dplyr)
library(reshape2)

sek %>% as.data.frame %>%
  melt(id.var="Group") %>%
  group_by(Group, variable) %>%
  summarise(mismatch = length(unique(value)) - 1) %>%
  group_by(Group) %>%
  summarise(mismatch = sum(mismatch))

  Group mismatch
1     1        0
2     2        1

這是一個更短的dplyr方法來計算個體不匹配。 它不需要重塑，但它需要其他數據體操：

sek %>% as.data.frame %>%
  group_by(Group) %>%
  summarise_each(funs(length(unique(.)) - 1)) %>%
  mutate(mismatch = rowSums(.[-1])) %>%
  select(-matches("^t[1-3]$"))

Answer 3

另一個想法：

library(dplyr)
library(tidyr)

data.frame(sek) %>%
  gather(key, value, -Group) %>%
  group_by(Group) %>%
  summarise(dist = n_distinct(value)-1)

這使：

#Source: local data frame [2 x 2]
#
#  Group dist
#1     1    0
#2     2    1

Answer 4

m <- matrix(apply(sek[,-1], 1, paste, collapse=''))
newdf <- as.data.frame(cbind(sek[,1], m))
names(newdf) <- c('Group', 'value')
newdf %>% group_by(Group) %>% summarize(count = length(unique(value))-1)
#  Group count
#1     1     0
#2     2     1

Answer 5

基礎包：

aggregate(cbind(dist = Groups) ~ Groups, 
          data = unique(sek), 
          FUN = function(x){NROW(x)-1})

使用sqldf ：

library(sqldf)
df <- rbind(c(1, "a", "a", "a"), 
            c(1, "a", "a", "a"), 
            c(2, "b", "b", "b"), 
            c(2, "c", "b", "b"))
df <- as.data.frame(df)
colnames(df)[1] <- "Groups"
sqldf("SELECT Groups, COUNT(Groups)-1 AS Dist 
      FROM (SELECT DISTINCT * FROM df) 
      GROUP BY Groups")

輸出：

  Groups Dist
1      1    0
2      2    1

R - 按組計算不匹配

問題描述

5 個解決方案

解決方案1
6 2015-07-07 23:53:40

解決方案2
3 已采納 2015-07-07 23:38:11

解決方案3
3 2015-07-07 23:48:52

解決方案4
2 2015-07-07 23:41:19

解決方案5
2 2015-07-10 10:15:05

R - 按組計算不匹配

問題描述

5 個解決方案

解決方案1 6 2015-07-07 23:53:40

解決方案2 3 已采納 2015-07-07 23:38:11

解決方案3 3 2015-07-07 23:48:52

解決方案4 2 2015-07-07 23:41:19

解決方案5 2 2015-07-10 10:15:05

解決方案1
6 2015-07-07 23:53:40

解決方案2
3 已采納 2015-07-07 23:38:11

解決方案3
3 2015-07-07 23:48:52

解決方案4
2 2015-07-07 23:41:19

解決方案5
2 2015-07-10 10:15:05