將因子矩陣轉換為R中的二進制（指標）矩陣的最有效方法

Question

我可以想到幾種方法來轉換這種類型的矩陣（數據幀）：

    dat = data.frame(
    x1 = rep(c('a', 'b'), 100),
    x2 = rep(c('x', 'y'), 100)
)

head(dat)
  x1 x2
1  a  x
2  b  y
3  a  x
4  b  y
5  a  x
6  b  y

進入二進制（指標）矩陣（或數據框），如下所示：

（這種結構當然是微不足道的，僅用於說明目的！）

非常感謝！

Answer 1

我們可以用table

tbl <- table(rep(1:nrow(dat),2),unlist(dat))
head(tbl, 2)
#    a b x y
#  1 1 0 1 0
#  2 0 1 0 1

或者可能有效的選擇

library(Matrix)
sM <- sparse.model.matrix(~ -1 + x1 +x2, dat, 
      contrasts.arg = lapply(dat, contrasts, contrasts = FALSE))
colnames(sM) <- sub(".*\\d", "", colnames(sM))
head(sM, 2)
# 2 x 4 sparse Matrix of class "dgCMatrix"
# a b x y
#1 1 . 1 .
#2 . 1 . 1

它可以通過轉換為matrix轉換為二進制

head(as.matrix(sM),2)  
#  a b x y
#1 1 0 1 0
#2 0 1 0 1

Answer 2

已經發布了一些很好的解決方案，但沒有一個是最佳的性能。 我們可以通過循環每個輸入列來優化性能，然后在每個輸入列中循環每個因子級索引並對因子索引進行直接整數比較。 它不是最簡潔或優雅的代碼片段，但它相當簡單快速：

do.call(cbind,lapply(dat,function(col)
    `colnames<-`(do.call(cbind,lapply(seq_along(levels(col)),function(i)
        as.integer(as.integer(col)==i)
    )),levels(col))
));

性能：

library(Matrix);
library(data.table);
library(microbenchmark);

bgoldst <- function(dat) do.call(cbind,lapply(dat,function(col) `colnames<-`(do.call(cbind,lapply(seq_along(levels(col)),function(i) as.integer(as.integer(col)==i))),levels(col))));
akrun1 <- function(dat) table(rep(1:nrow(dat),2),unlist(dat));
akrun2 <- function(dat) sparse.model.matrix(~-1+x1+x2,dat,contrasts.arg=lapply(dat,contrasts,contrasts=FALSE));
davidar <- function(dat) { dat[,rowid:=.I]; dcast(melt(dat,id='rowid'),rowid~value,length); }; ## requires a data.table
dataminer <- function(dat) t(apply(dat,1,function(x) as.numeric(unique(unlist(dat))%in%x)));

N <- 100L; dat <- data.frame(x1=rep(c('a','b'),N),x2=rep(c('x','y'),N)); datDT <- setDT(copy(dat));
identical(unname(bgoldst(dat)),matrix(as.vector(akrun1(dat)),ncol=4L));
## [1] TRUE
identical(unname(bgoldst(dat)),unname(matrix(as.integer(as.matrix(akrun2(dat))),ncol=4L)));
## [1] TRUE
identical(bgoldst(dat),as.matrix(davidar(datDT)[,rowid:=NULL]));
## [1] TRUE
identical(unname(bgoldst(dat)),matrix(as.integer(dataminer(dat)),ncol=4L));
## [1] TRUE

N <- 100L;
dat <- data.frame(x1=rep(c('a','b'),N),x2=rep(c('x','y'),N)); datDT <- setDT(copy(dat));
microbenchmark(bgoldst(dat),akrun1(dat),akrun2(dat),davidar(datDT),dataminer(dat));
## Unit: microseconds
##            expr       min        lq       mean     median         uq       max neval
##    bgoldst(dat)    67.570    92.374   106.2853    99.6440   121.2405   188.596   100
##     akrun1(dat)   581.182   652.386   773.6300   690.6605   916.4625  1192.299   100
##     akrun2(dat)  4429.208  4836.119  5554.5902  5145.3135  5977.0990 11263.537   100
##  davidar(datDT)  5064.273  5498.555  6104.7621  5664.9115  6203.9695 11713.856   100
##  dataminer(dat) 47577.729 49529.753 55217.3726 53190.8940 60041.9020 74346.268   100

N <- 1e4L;
dat <- data.frame(x1=rep(c('a','b'),N),x2=rep(c('x','y'),N)); datDT <- setDT(copy(dat));
microbenchmark(bgoldst(dat),akrun1(dat),akrun2(dat),davidar(datDT));
## Unit: milliseconds
##            expr       min        lq      mean   median        uq        max neval
##    bgoldst(dat)  1.775617  1.820949  2.299493  1.84725  1.972124   8.362336   100
##     akrun1(dat) 38.954524 41.109257 48.409613 45.60304 52.147633 162.365472   100
##     akrun2(dat) 16.915832 17.762799 21.288200 19.20164 23.775180  46.494055   100
##  davidar(datDT) 36.151684 38.366715 42.875940 42.38794 45.916937  58.695008   100

N <- 1e5L;
dat <- data.frame(x1=rep(c('a','b'),N),x2=rep(c('x','y'),N)); datDT <- setDT(copy(dat));
microbenchmark(bgoldst(dat),akrun1(dat),akrun2(dat),davidar(datDT));
## Unit: milliseconds
##            expr       min        lq      mean    median        uq      max neval
##    bgoldst(dat)  17.16473  22.97654  35.01815  26.76662  31.75562 152.6188   100
##     akrun1(dat) 501.72644 626.14494 671.98315 680.91152 727.88262 828.8313   100
##     akrun2(dat) 212.12381 242.65505 298.90254 272.28203 357.65106 429.6023   100
##  davidar(datDT) 368.04924 461.60078 500.99431 511.54921 540.39358 638.3840   100

Answer 3

如果您顯示的是data.frame （不是矩陣），您也可以重新制作數據

library(data.table)
setDT(dat)[, rowid := .I] # Creates a row index
res <- dcast(melt(dat, id = "rowid"), rowid ~ value, length) # long/wide format
head(res)
#   rowid a b x y
# 1     1 1 0 1 0
# 2     2 0 1 0 1
# 3     3 1 0 1 0
# 4     4 0 1 0 1
# 5     5 1 0 1 0
# 6     6 0 1 0 1

一些基准

dat = data.frame(
  x1 = rep(c('a', 'b'), 1e3),
  x2 = rep(c('x', 'y'), 1e3)
)

library(data.table)
library(Matrix)
library(microbenchmark)

dat2 <- copy(dat)


microbenchmark("akrun1 : " = table(rep(1:nrow(dat),2),unlist(dat)),
               "akrun2 : " = sparse.model.matrix(~ -1 + x1 +x2, dat, contrasts.arg = lapply(dat, contrasts, contrasts = FALSE)),
               "DatamineR : " = t(apply(dat,1, function(x) as.numeric(unique(unlist(dat)) %in% x))),
               "David Ar : " = {setDT(dat2)[, rowid := .I] ; dcast(melt(dat2, id = "rowid"), rowid ~ value, length)},
               times = 10L)
# Unit: milliseconds
#          expr         min          lq        mean      median         uq        max neval cld
#     akrun1 :     3.826075    4.061904    6.654399    5.165376   11.26959   11.82029    10  a 
#     akrun2 :     5.269531    5.713672    8.794434    5.943422   13.34118   20.01961    10  a 
#  DatamineR :  3199.336286 3343.774160 3410.618547 3385.756972 3517.22133 3625.70909    10   b
#   David Ar :     8.092769    8.254682   11.030785    8.465232   15.44893   19.83914    10  a

apply解決方案效率非常低，並且將永遠占用更大的數據集。 在排除apply解決方案時比較更大的數據集

dat = data.frame(
  x1 = rep(c('a', 'b'), 1e4),
  x2 = rep(c('x', 'y'), 1e4)
)

dat2 <- copy(dat)

microbenchmark("akrun1 : " = table(rep(1:nrow(dat),2),unlist(dat)),
               "akrun2 : " = sparse.model.matrix(~ -1 + x1 +x2, dat, contrasts.arg = lapply(dat, contrasts, contrasts = FALSE)),
               #"DatamineR : " = t(apply(dat,1, function(x) as.numeric(unique(unlist(dat)) %in% x))),
               "David Ar : " = {setDT(dat2)[, rowid := .I] ; dcast(melt(dat2, id = "rowid"), rowid ~ value, length)},
               times = 100L)
# Unit: milliseconds
#        expr      min       lq     mean   median       uq      max neval cld
#   akrun1 :  38.66744 41.27116 52.97982 42.72534 47.17203 161.0420   100   b
#   akrun2 :  17.02006 18.93534 27.27582 19.35580 20.72022 153.2397   100  a 
# David Ar :  34.15915 37.91659 46.11050 38.58536 41.40412 149.0038   100   b

看起來像Matrix包有更大的數據集。

當有更多列/唯一值時，可能值得比較不同的場景。

Answer 4

一種替代使用apply

head(t(apply(dat,1, function(x) as.numeric(unique(unlist(dat)) %in% x))))
     [,1] [,2] [,3] [,4]
[1,]    1    0    1    0
[2,]    0    1    0    1
[3,]    1    0    1    0
[4,]    0    1    0    1
[5,]    1    0    1    0
[6,]    0    1    0    1

將因子矩陣轉換為R中的二進制（指標）矩陣的最有效方法

問題描述

4 個解決方案

解決方案1
4 2016-04-10 15:28:10

解決方案2
3 2016-04-10 20:51:26

解決方案3
2 2016-04-10 15:58:26

解決方案4
1 2016-04-10 15:32:39

將因子矩陣轉換為R中的二進制（指標）矩陣的最有效方法

問題描述

4 個解決方案

解決方案1 4 2016-04-10 15:28:10

解決方案2 3 2016-04-10 20:51:26

解決方案3 2 2016-04-10 15:58:26

解決方案4 1 2016-04-10 15:32:39

解決方案1
4 2016-04-10 15:28:10

解決方案2
3 2016-04-10 20:51:26

解決方案3
2 2016-04-10 15:58:26

解決方案4
1 2016-04-10 15:32:39