將行與列匹配並計算相同的出現次數 R

Question

我有一個如下形式的數據集：-

a <- data.frame(X1=c("A", "B", "C", "A", "B", "C"),
                X2=c("B", "C", "C", "A", "A", "B"),
                X3=c("B", "E", "A", "A", "A", "B"),
                X4=c("E", "C", "A", "A", "A", "C"),
                X5=c("A", "C", "C", "A", "B", "B")
               )

我還有另一組以下表格：-

b <- data.frame(col_1=c("ASD", "ASD", "BSD", "BSD"),
                col_2=c(1, 1, 1, 1),
                col_3=c(12, 12, 31, 21),
                col_4=("A", "B", "B", "A")
               )

我想要做的是從集合b取出列col_4並在集合a中逐行匹配，以便它告訴我哪一行在新列中有多少來自col_4元素。 新列的名稱無關緊要。

例如：- 集合a的第一行和第五行具有集合b中col_4所有元素。

此外，不應發現重復項。 例如。 集合a第六行有 3 個"B" 。 但是由於集合b col_4只有兩個"B" ，它應該告訴我 2 而不是 3。

預期輸出的形式為：-

c <- data.frame(X1=c("A", "B", "C", "A", "B", "C"),
                X2=c("B", "C", "C", "A", "A", "B"),
                X3=c("B", "E", "A", "A", "A", "B"),
                X4=c("E", "C", "A", "A", "A", "C"),
                X5=c("A", "C", "C", "A", "B", "B"),
                found=c(4, 1, 2, 2, 4, 2)
               )

Answer 1

我們可以使用vecsets::vintersect來處理重復項。

使用apply逐行我們可以指望共同的價值觀究竟有多少間b$col4並在每行a 。

apply(a, 1, function(x) length(vecsets::vintersect(b$col_4, x)))
#[1] 4 1 2 2 4 2

Answer 2

使用data.table的選項：

library(data.table)

#convert a into a long format
m <- melt(setDT(a)[, rn:=.I], id.vars="rn", value.name="col_4")

#order by row number and create an index for identical occurrences in col_4
setorder(m, rn, col_4)[, vidx := rowid(col_4), rn]

#create a similar index for b
setDT(b, key="col_4")[, vidx := rowid(col_4)]

#count occurrences and lookup this count into original data
a[b[m, on=.(col_4, vidx), nomatch=0L][, .N, rn], on=.(rn), found := N]

輸出：

   X1 X2 X3 X4 X5 rn found
1:  A  B  B  E  A  1     4
2:  B  C  E  C  C  2     1
3:  C  C  A  A  C  3     2
4:  A  A  A  A  A  4     2
5:  B  A  A  A  B  5     4
6:  C  B  B  C  B  6     2

Answer 3

對集高效運作另一個想法是計算和的元素出現次數比較b$col_4的每一行中a ：

b1 = c(table(b$col_4))
#b1
#A B 
#2 2

a1 = table(factor(as.matrix(a), names(b1)), row(a))
#a1
#   
#    1 2 3 4 5 6
#  A 2 0 2 5 3 0
#  B 2 1 0 0 2 3

最后，確定每個元素（每行）出現的最少次數並求和：

colSums(pmin(a1, b1))
#1 2 3 4 5 6 
#4 1 2 2 4 2

在一個更大的尺寸的情況下， a “data.frame”和以上的元素， Matrix::sparseMatrix提供了一個適當的替代：

library(Matrix)

a.fac = factor(as.matrix(a), names(b1))
.i = as.integer(a.fac)
.j = c(row(a))

noNA = !is.na(.i)  ## need to remove NAs manually
.i = .i[noNA]
.j = .j[noNA]

a1 = sparseMatrix(i = .i, j = .j, x = 1L, dimnames = list(names(b1), 1:nrow(a)))

a1
#2 x 6 sparse Matrix of class "dgCMatrix"
#  1 2 3 4 5 6
#A 2 . 2 5 3 .
#B 2 1 . . 2 3

colSums(pmin(a1, b1))
#1 2 3 4 5 6 
#4 1 2 2 4 2

將行與列匹配並計算相同的出現次數 R

問題描述

3 個解決方案

解決方案1
6 已采納 2020-03-25 07:46:52

解決方案2
1 2020-03-25 07:37:49

解決方案3
1 2020-03-25 14:27:35

將行與列匹配並計算相同的出現次數 R

問題描述

3 個解決方案

解決方案1 6 已采納 2020-03-25 07:46:52

解決方案2 1 2020-03-25 07:37:49

解決方案3 1 2020-03-25 14:27:35

解決方案1
6 已采納 2020-03-25 07:46:52

解決方案2
1 2020-03-25 07:37:49

解決方案3
1 2020-03-25 14:27:35