找到經理經理身份的有效方法

Question

我有一個員工數據庫，其中包含經理的ID，長格式（每個員工每月一行）。 我想添加一個包含其經理的經理ID（或他們的跳過級別經理的ID）的列。

這是一個玩具數據集：

id <- c(seq.int(1,11), seq.int(2,12))
mgr_id <- as.integer(c(NA, 1, 1, 2, 2, 2, 2, 3, 3, 5, 5,   #period 1
                      NA, 2, 5, 2, 5, 5, 3, 3, 5, 10, 10)) #period 2
period <- c(rep(1, 11), rep(2, 11))
left_company <- c(1, rep(0, 21))
joined_company <- c(rep(0, 21), 1) 

df <- data.frame(id, mgr_id, period, left_company, joined_company)

這是我寫的一個函數，它返回預期的結果。

# finds the employee's manager in the correct period, and returns that manager's id

    get_mgr_mgr_id <- function(manager_id, period){
      mgr_mgr_id <- df$mgr_id[df$id == manager_id & df$period == period] 
      return(mgr_mgr_id[1])
    }

當我使用mapply函數時，一切都很好。 請注意，員工1離開了公司，他們被員工5取代，員工5被員工10取代，員工12被新員工替換。

df$mgr_mgr_id <- mapply(get_mgr_mgr_id, df$mgr_id, df$period)

df
   id mgr_id period left joined mgr_mgr_id
1   1     NA      1    1      0         NA
2   2      1      1    0      0         NA
3   3      1      1    0      0         NA
4   4      2      1    0      0          1
5   5      2      1    0      0          1
6   6      2      1    0      0          1
7   7      2      1    0      0          1
8   8      3      1    0      0          1
9   9      3      1    0      0          1
10 10      5      1    0      0          2
11 11      5      1    0      0          2
12  2     NA      2    0      0         NA
13  3      2      2    0      0         NA
14  4      5      2    0      0          2
15  5      2      2    0      0         NA
16  6      5      2    0      0          2
17  7      5      2    0      0          2
18  8      3      2    0      0          2
19  9      3      2    0      0          2
20 10      5      2    0      0          2
21 11     10      2    0      0          5
22 12     10      2    0      1          5

我的問題： 是否有更有效的方法來獲得這個結果？ 目前，甚至在10,000行上運行需要相當長的時間，而我的數據集已接近一百萬。

我也對更一般的問題標題（可能是這個SQL問題的一個版本：在表中遞歸查找某些東西的最有效方法）的建議持開放態度。）

Answer 1

您可以使用data.table運行聯接。 我不確定會有多快：

library(data.table)
setDT(df)

df[, m2id := df[.(id = mgr_id, period = period), on=c("id", "period"), mgr_id]]

    id mgr_id period left_company joined_company m2id
 1:  1     NA      1            1              0   NA
 2:  2      1      1            0              0   NA
 3:  3      1      1            0              0   NA
 4:  4      2      1            0              0    1
 5:  5      2      1            0              0    1
 6:  6      2      1            0              0    1
 7:  7      2      1            0              0    1
 8:  8      3      1            0              0    1
 9:  9      3      1            0              0    1
10: 10      5      1            0              0    2
11: 11      5      1            0              0    2
12:  2     NA      2            0              0   NA
13:  3      2      2            0              0   NA
14:  4      5      2            0              0    2
15:  5      2      2            0              0   NA
16:  6      5      2            0              0    2
17:  7      5      2            0              0    2
18:  8      3      2            0              0    2
19:  9      3      2            0              0    2
20: 10      5      2            0              0    2
21: 11     10      2            0              0    5
22: 12     10      2            0              1    5
    id mgr_id period left_company joined_company m2id

這個怎么運作

連接的語法是x[i, on=, j] 。 它使用i和on來對x進行子集，然后返回j 。 這里的關鍵點是在i設置id = mgr_id ，因此我們將子集id = mgr_id管理器的行。

分配列的語法是DT[, col_name := value] 。 在這種情況下，該值來自最后一段中解釋的連接。

找到經理經理身份的有效方法

問題描述

1 個解決方案

解決方案1
5 已采納 2016-08-29 16:49:31

找到經理經理身份的有效方法

問題描述

1 個解決方案

解決方案1 5 已采納 2016-08-29 16:49:31

解決方案1
5 已采納 2016-08-29 16:49:31