更有效的方式來重新編碼組？

Question

我的目標是重新編碼group_old使其看起來像group_desired：

group_old <- c(58,58,57,57,57,56,56,56,59,59,56)
group_desired <- c(1,1,2,2,2,3,3,3,4,4,3)
df <- data.frame(group_old, group_desired)

> df
   group_old group_desired
1         58             1
2         58             1
3         57             2
4         57             2
5         57             2
6         56             3
7         56             3
8         56             3
9         59             4
10        59             4
11        56             3

我能夠做到：

codex <- data.frame(old = unique(df$group_old), new = 1:length(unique(df$group_old)))

df$group_new <- sapply(df$group_old, FUN = function(x) codex$new[codex$old == x] )

> df
   group_old group_desired group_new
1         58             1         1
2         58             1         1
3         57             2         2
4         57             2         2
5         57             2         2
6         56             3         3
7         56             3         3
8         56             3         3
9         59             4         4
10        59             4         4
11        56             3         3

但是，此代碼在具有800萬個obs和40萬個組的數據集上運行非常緩慢。 是否有一種更有效的方法來完成大數據的相同任務？

Answer 1

使用data.table ：

我們按group_old ，然后按引用創建一個新列。 .GRP是data.table的特殊符號。 它是一個簡單的分組計數器。 它將1分配給第一個組，將2分配給第二個..依此類推

group_old <- c(58,58,57,57,57,56,56,56,59,59,56)
df <- data.frame(group_old = group_old)

library(data.table)
setDT(df)[,group_desired := .GRP, by = group_old]

 #   group_old group_desired
 #1:        58             1
 #2:        58             1
 #3:        57             2
 #4:        57             2
 #5:        57             2
 #6:        56             3
 #7:        56             3
 #8:        56             3
 #9:        59             4
#10:        59             4
#11:        56             3

或使用dplyr ：

df$group_desired <- group_indices(df, group_old)

為了獲得與上述類似的結果，我們首先定義group_old的因子水平：

df$group_old <- factor(df$group_old, levels = unique(df$group_old))
df$group_desired <- group_indices(df, group_old)

注意： group_indices根據升序（如果是數字）或因子級別（如果使用的變量是factor）分配組號。

Answer 2

我不確定性能，但是您可以嘗試從新版本的dplyr軟件包重新編碼：

df$group_desired <-
  dplyr::recode(df$group_old, `58` = 1, `57` = 2, `56` = 3, `59` = 4)

Answer 3

更通用的數據表方法。

library(data.table)
dt1 <- data.table(old = LETTERS[1:6], new = 1:6)

set.seed(1234)
dt2 <- data.table(old = sample(LETTERS[1:6], 6, replace = TRUE))

setkey(dt1, old)
setkey(dt2, old)

dt2[dt1]
#    old new
# 1:   A   1
# 2:   B   2
# 3:   C   3
# 4:   D   4
# 5:   D   4
# 6:   D   4
# 7:   D   4
# 8:   E   5
# 9:   F   6

Answer 4

我發現了另一種Base R方式，該方式比我原來的要快一些：

df <- within(df, { group_new <- as.numeric(as.factor(df$group_old)) }  )
df <- within(df, { group_new <- match(group_new, unique(group_new)) }  )

更有效的方式來重新編碼組？

問題描述

4 個解決方案

解決方案1
3 已采納 2016-08-05 22:48:11

解決方案2
1 2016-08-05 22:46:35

解決方案3
0 2016-08-05 22:52:03

解決方案4
0 2016-08-06 00:35:58

更有效的方式來重新編碼組？

問題描述

4 個解決方案

解決方案1 3 已采納 2016-08-05 22:48:11

解決方案2 1 2016-08-05 22:46:35

解決方案3 0 2016-08-05 22:52:03

解決方案4 0 2016-08-06 00:35:58

解決方案1
3 已采納 2016-08-05 22:48:11

解決方案2
1 2016-08-05 22:46:35

解決方案3
0 2016-08-05 22:52:03

解決方案4
0 2016-08-06 00:35:58