如何根據其他列的值在 data.table 中創建新列

Question

我有以下 data.table 格式的數據結構：

ID  Cycle  Cycle_Day Cycle_Date  Positive_Test_Date
1   1      1         3/28/2019   NA
1   1      2         3/29/2019   NA
1   1      3         3/30/2019   NA
1   1      NA        NA          3/29/2019
1   2      1         4/23/2019   NA 
1   2      2         4/24/2019   NA
1   2      3         4/25/2019   NA
1   2      NA        NA          4/25/2019
2   1      1         3/18/2019   NA
2   1      2         3/19/2019   NA
2   1      3         3/20/2019   NA
2   1      NA        NA          3/18/2019
2   2      1         4/23/2019   NA 
2   2      2         4/24/2019   NA
2   2      3         4/25/2019   NA
2   2      NA        NA          4/24/2019

我想創建一個新列“LH_Date”，它將為每個 ID 和每個周期復制事件 Cycle_Date 和 Positive_Test_Date 匹配中的日期。 否則值為 NA。 它應該是這樣的：

ID  Cycle  Cycle_Day Cycle_Date  Positive_Test_Date LH_Date
1   1      1         3/28/2019   NA                 NA 
1   1      2         3/29/2019   NA                 3/29/2019
1   1      3         3/30/2019   NA                 NA
1   1      NA        NA          3/29/2019          NA
1   2      1         4/23/2019   NA                 NA
1   2      2         4/24/2019   NA                 NA
1   2      3         4/25/2019   NA                 4/25/2019
1   2      NA        NA          4/25/2019          NA
2   1      1         3/18/2019   NA                 3/18/2019
2   1      2         3/19/2019   NA                 NA
2   1      3         3/20/2019   NA                 NA 
2   1      NA        NA          3/18/2019          NA
2   2      1         4/23/2019   NA                 NA
2   2      2         4/24/2019   NA                 4/24/2019
2   2      3         4/25/2019   NA                 NA
2   2      NA        NA          4/24/2019          NA

Answer 1

假設您的數據位於名為DT的data.table中：

第一個過濾器DT ，其中Positive_Test_Date不是NA （因為它們對於創建新列沒有用）

ptd_notna <- DT[!is.na(Positive_Test_Date)]

然后在ID和Cycle上將您的原始表與該表連接並創建一個新列idx ，它是一個 boolean，指示表 X的Cycle_Date是否等於每個組的表 i的Positive_Test_Date 。 將連接視為X[Y] ，因此您引用X到x.colname的列和Y到i.colname的列（因為Y位於X的i部分）。

DT[ptd_notna, 
   idx := x.Cycle_Date == i.Positive_Test_Date, 
   on = .(ID, Cycle)]

現在您可以使用這個新列idx來過濾您的表並分配新列LH_Date等於Cycle_Date 。 請注意如何在i使用 parethes 時使用 boolean 列。

DT[(idx), LH_Date := Cycle_Date]

如果您認為不需要它，請刪除idx 。

DT[, idx := NULL]

Answer 2

另一種選擇是使用索引來查找符合條件的行並僅更新這些行：

#for each group of ID and Cycle, 
#find the row indices where Cycle_Date equals the last Positive_Test_Date 
idxDT <- DT[, .I[Cycle_Date==Positive_Test_Date[.N]], .(ID, Cycle)]

#for those row indices, set the LH_Date to be Cycle_Date 
#(NA rows or excluded rows defaults to NA by design in data.table)
DT[idxDT$V1, LH_Date := Cycle_Date]

idxDT看起來像這樣，並且idxDT$V1提取列V1 ：

   ID Cycle V1
1:  1     1  2
2:  1     1 NA
3:  1     2  7
4:  1     2 NA
5:  2     1  9
6:  2     1 NA
7:  2     2 14
8:  2     2 NA

.I包含 data.table 中的行索引。 從?.I :

.I 是一個 integer 向量，等於 seq_len(nrow(x))。 在分組時，它為組中的每個項目保留其在 x 中的行位置。 這對 j 中的子集很有用； 例如 DT[, .I[which.max(somecol)], by=grp]。

output：

    ID Cycle Cycle_Day Cycle_Date Positive_Test_Date   LH_Date
 1:  1     1         1  3/28/2019               <NA>      <NA>
 2:  1     1         2  3/29/2019               <NA> 3/29/2019
 3:  1     1         3  3/30/2019               <NA>      <NA>
 4:  1     1        NA       <NA>          3/29/2019      <NA>
 5:  1     2         1  4/23/2019               <NA>      <NA>
 6:  1     2         2  4/24/2019               <NA>      <NA>
 7:  1     2         3  4/25/2019               <NA> 4/25/2019
 8:  1     2        NA       <NA>          4/25/2019      <NA>
 9:  2     1         1  3/18/2019               <NA> 3/18/2019
10:  2     1         2  3/19/2019               <NA>      <NA>
11:  2     1         3  3/20/2019               <NA>      <NA>
12:  2     1        NA       <NA>          3/18/2019      <NA>
13:  2     2         1  4/23/2019               <NA>      <NA>
14:  2     2         2  4/24/2019               <NA> 4/24/2019
15:  2     2         3  4/25/2019               <NA>      <NA>
16:  2     2        NA       <NA>          4/24/2019      <NA>

數據：

library(data.table)
DT <- fread("ID  Cycle  Cycle_Day Cycle_Date  Positive_Test_Date
1   1      1         3/28/2019   NA
1   1      2         3/29/2019   NA
1   1      3         3/30/2019   NA
1   1      NA        NA          3/29/2019
1   2      1         4/23/2019   NA 
1   2      2         4/24/2019   NA
1   2      3         4/25/2019   NA
1   2      NA        NA          4/25/2019
2   1      1         3/18/2019   NA
2   1      2         3/19/2019   NA
2   1      3         3/20/2019   NA
2   1      NA        NA          3/18/2019
2   2      1         4/23/2019   NA 
2   2      2         4/24/2019   NA
2   2      3         4/25/2019   NA
2   2      NA        NA          4/24/2019")

如何根據其他列的值在 data.table 中創建新列

問題描述

2 個解決方案

解決方案1
1 2019-10-18 16:11:09

解決方案2
0 已采納 2019-10-21 00:40:11

如何根據其他列的值在 data.table 中創建新列

問題描述

2 個解決方案

解決方案1 1 2019-10-18 16:11:09

解決方案2 0 已采納 2019-10-21 00:40:11

解決方案1
1 2019-10-18 16:11:09

解決方案2
0 已采納 2019-10-21 00:40:11