簡體   English   中英

如何在多個列上應用具有多個條件的 function 以獲得 R 中的新條件列

[英]How to apply function with multiple conditions on multiple columns to get new conditional columns in R

大家好,這里是 R 菜鳥,

我希望你們能幫助我解決以下問題。

我需要根據原始列中的值多次將數據集中的多個列轉換為新列。 這意味着對於第一次轉換,我使用第 1、2、3 列,如果滿足某些條件,output 會產生一個新列,其中包含 1 或 0,對於第二次轉換,我使用第 4、5、6 列,並且 output 應該也可以是 1 或 0。 我必須這樣做 18 次。 我已經寫了一個 function 如果我手動估算變量,它會成功地進行轉換,但我想一次將此 function 應用於所有所需的列。 我想要的 output 將是 18 個帶有 0 和 1 的新列。 最后,我將制作最后一列,如果 18 列中的任何一列為 1,則顯示 1,否則顯示 0。

    df <- data.frame(admiss1 = sample(seq(as.Date('1990/01/01'), as.Date('2000/01/01'), by="day"), 12),
                     admiss2 = sample(seq(as.Date('1990/01/01'), as.Date('2000/01/01'), by="day"), 12),
                     admiss3 = sample(seq(as.Date('1990/01/01'), as.Date('2000/01/01'), by="day"), 12),
                     visit1 = sample(seq(as.Date('1995/01/01'), as.Date('1996/01/01'), by="day"), 12),
                     visit2 = sample(seq(as.Date('1997/01/01'), as.Date('1998/01/01'), by="day"), 12),
                     reason1 = sample(3,12, replace = T),
                     reason2 = sample(3,12, replace = T),
                     reason3 = sample(3,12, replace = T))
    
    df$discharge1 <- df$admiss1 + 10
    df$discharge2 <- df$admiss2 + 10
    df$discharge3 <- df$admiss3 + 10
#every discharge date is 10 days after the admission date for the sake of this example
    
#now I have the following dataframe
#for the sake of it I included only 3 dates and reasons(instead of 18)
          admiss1    admiss2    admiss3     visit1     visit2 reason1 reason2 reason3 discharge1 discharge2 discharge3
    1  1990-03-12 1992-04-04 1998-07-31 1995-01-24 1997-10-07       2       1       3 1990-03-22 1992-04-14 1998-08-10
    2  1999-05-18 1990-11-25 1995-10-04 1995-03-06 1997-03-13       1       2       1 1999-05-28 1990-12-05 1995-10-14
    3  1993-07-16 1998-06-10 1991-07-05 1995-11-06 1997-11-15       1       1       2 1993-07-26 1998-06-20 1991-07-15
    4  1991-07-05 1992-06-17 1995-10-12 1995-05-14 1997-05-02       2       1       3 1991-07-15 1992-06-27 1995-10-22
    5  1995-08-16 1999-03-08 1992-04-03 1995-02-20 1997-01-03       1       3       3 1995-08-26 1999-03-18 1992-04-13
    6  1999-10-07 1991-12-26 1995-05-05 1995-10-24 1997-10-15       3       1       1 1999-10-17 1992-01-05 1995-05-15
    7  1998-03-18 1992-04-18 1993-12-31 1995-11-14 1997-06-14       3       2       2 1998-03-28 1992-04-28 1994-01-10
    8  1992-08-04 1991-09-16 1992-04-23 1995-05-29 1997-10-11       1       2       3 1992-08-14 1991-09-26 1992-05-03
    9  1997-02-20 1990-02-12 1998-03-08 1995-10-09 1997-12-29       1       1       3 1997-03-02 1990-02-22 1998-03-18
    10 1992-09-16 1997-06-16 1997-07-18 1995-12-11 1997-01-12       1       2       2 1992-09-26 1997-06-26 1997-07-28
    11 1991-01-25 1998-04-07 1999-07-02 1995-12-27 1997-05-28       3       2       1 1991-02-04 1998-04-17 1999-07-12
    12 1996-02-25 1993-03-30 1997-06-25 1995-09-07 1997-10-18       1       3       2 1996-03-06 1993-04-09 1997-07-05
    
    admissdate <- function(admis, dis, rsn, vis1, vis2){
      xnew <- ifelse(df[eval(substitute(admis))] >= df[eval(substitute(vis1))] & df[eval(substitute(dis))] <= df[eval(substitute(vis2))] & df[eval(substitute(rsn))] == 2, 1, 0)
      xnew <- ifelse(df[eval(substitute(admis))] >= df[eval(substitute(vis1))] & df[eval(substitute(admis))] <= df[eval(substitute(vis2))] & df[eval(substitute(dis))] >= df[eval(substitute(vis2))] & df[eval(substitute(rsn))] == 2, 1, xnew)
      return(xnew)
    }

我寫了這個 function 如果條件為真則生成 1,如果條件為假則生成 0。

-條件1:入院日期和出院日期在訪視1和訪視2之間+入院原因為2。

-條件2:入院日期在回訪1之后,回訪2之前,出院日期在回訪2之后,同時入院原因2。

如果這些條件為真,它應該返回 1,如果這些條件為假,它應該返回 0。 最終,我將得到 18 個新變量,其中包含 1 或 0,並將它們組合成一個變量,其中包含訪問 1 和訪問 2 之間的准入(原因 2)。

如果我手動估算變量名稱,它將起作用,但我不能讓它同時適用於所有變量。 我嘗試使用所有入院日期、出院日期和原因制作一個字符串向量,並嘗試使用 mapply 對其進行轉換,但這不起作用。

    admiss <- paste0(rep("admiss", 3), 1:3)
    discharge <- paste0(rep("discharge", 3), 1:3)
    reason <- paste0(rep("reason", 3), 1:3)
    visit1 <- rep("visit1",3)
    visit2 <- rep("visit2",3)
    
    mapply(admissdate, admis = admiss, dis = discharge, rsn = reason, vis1 = visit1, vis2 = visit2)

我也考慮過 lapply 但在這里你必須定義一個 X =...,我認為我不能使用它,因為我有多個要估算的列,如果我錯了,請糾正我!

我也考慮過使用 for 循環,但我不知道如何在多個條件下使用它。

任何幫助將不勝感激!

您可以更改 function 以接受值而不是列名。

admissdate <- function(admis, dis, rsn, vis1, vis2){
  xnew <- as.integer(admis >= vis1 & dis <= vis2 & rsn == 2)
  xnew <- ifelse(admis >= vis1 & admis <= vis2 & dis >= vis2 & rsn == 2, 1, xnew)
  return(xnew)
}

現在創建新列 -

admiss <- paste0("admiss", 1:3)
discharge <- paste0("discharge", 1:3)
reason <- paste0("reason", 1:3)
new_col <- paste0('newcol', 1:3)

df[new_col] <- Map(function(x, y, z) admissdate(x, y, z, df$visit1, df$visit2), 
                   df[admiss],df[discharge],df[reason])
#Additional column will be 1 if any of the value in the new column is 1.
df$result <- as.integer(rowSums(df[new_col]) > 0)
df

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM