如何在 R 中為每列添加不同條件的多列？

Question

這是我的數據集。 我想用5不同的條件向mydata添加5新列。

mydata=data.frame(sub=rep(c(1:4),c(3,4,5,5)),t=c(1:3,1:4,1:5,1:5),
                      y.val=c(10,20,13,
                          5,7,8,0,
                          45,17,25,12,10,
                          40,0,0,5,8))
mydata
   sub t y.val
1    1 1    10
2    1 2    20
3    1 3    13
4    2 1     5
5    2 2     7
6    2 3     8
7    2 4     0
8    3 1    45
9    3 2    17
10   3 3    25
11   3 4    12
12   3 5    10
13   4 1    40
14   4 2     0
15   4 3     0
16   4 4     5
17   4 5     8

我想添加以下5 (max of 't' column)列作為

mydata$It1=ifelse(mydata$t==1 & mydata$y.val>0,1,0)
mydata$It2=ifelse(mydata$t==2 & mydata$y.val>0,1,0)
mydata$It3=ifelse(mydata$t==3 & mydata$y.val>0,1,0)
mydata$It4=ifelse(mydata$t==4 & mydata$y.val>0,1,0)
mydata$It5=ifelse(mydata$t==5 & mydata$y.val>0,1,0)

這是預期的結果。

> mydata
   sub t y.val It1 It2 It3 It4 It5
1    1 1    10   1   0   0   0   0
2    1 2    20   0   1   0   0   0
3    1 3    13   0   0   1   0   0
4    2 1     5   1   0   0   0   0
5    2 2     7   0   1   0   0   0
6    2 3     8   0   0   1   0   0
7    2 4     0   0   0   0   0   0
8    3 1    45   1   0   0   0   0
9    3 2    17   0   1   0   0   0
10   3 3    25   0   0   1   0   0
11   3 4    12   0   0   0   1   0
12   3 5    10   0   0   0   0   1
13   4 1    40   1   0   0   0   0
14   4 2     0   0   0   0   0   0
15   4 3     0   0   0   0   0   0
16   4 4     5   0   0   0   1   0
17   4 5     8   0   0   0   0   1

如果可以使用 for 循環或任何其他技術將它寫成 function，我將感謝您的幫助。

Answer 1

你可以使用sapply / lapply

n <- seq_len(5)
mydata[paste0("It", n)] <- +(sapply(n, function(x) mydata$t==x & mydata$y.val>0))
mydata

#   sub t y.val It1 It2 It3 It4 It5
#1    1 1    10   1   0   0   0   0
#2    1 2    20   0   1   0   0   0
#3    1 3    13   0   0   1   0   0
#4    2 1     5   1   0   0   0   0
#5    2 2     7   0   1   0   0   0
#6    2 3     8   0   0   1   0   0
#7    2 4     0   0   0   0   0   0
#8    3 1    45   1   0   0   0   0
#9    3 2    17   0   1   0   0   0
#10   3 3    25   0   0   1   0   0
#11   3 4    12   0   0   0   1   0
#12   3 5    10   0   0   0   0   1
#13   4 1    40   1   0   0   0   0
#14   4 2     0   0   0   0   0   0
#15   4 3     0   0   0   0   0   0
#16   4 4     5   0   0   0   1   0
#17   4 5     8   0   0   0   0   1

mydata$t==x & mydata$y.val>0根據條件返回邏輯值TRUE / FALSE 。 +將這些邏輯值分別更改為 1/0。 （嘗試+c(FALSE, TRUE) ）。 它避免使用ifelse即ifelse(condition, 1, 0) 。

Answer 2

這是另一種基於將 model 矩陣乘以邏輯y.val > 0的方法。

df <- cbind(mydata[1:3], model.matrix(~ factor(t) + 0, mydata)*(mydata$y.val>0))

這使：

   sub t y.val factor.t.1 factor.t.2 factor.t.3 factor.t.4 factor.t.5
1    1 1    10          1          0          0          0          0
2    1 2    20          0          1          0          0          0
3    1 3    13          0          0          1          0          0
4    2 1     5          1          0          0          0          0
5    2 2     7          0          1          0          0          0
6    2 3     8          0          0          1          0          0
7    2 4     0          0          0          0          0          0
8    3 1    45          1          0          0          0          0
9    3 2    17          0          1          0          0          0
10   3 3    25          0          0          1          0          0
11   3 4    12          0          0          0          1          0
12   3 5    10          0          0          0          0          1
13   4 1    40          1          0          0          0          0
14   4 2     0          0          0          0          0          0
15   4 3     0          0          0          0          0          0
16   4 4     5          0          0          0          1          0
17   4 5     8          0          0          0          0          1

要清理您可以執行的名稱：

names(df) <- sub("factor.t.", "It", names(df), fixed = TRUE)

Answer 3

您可以使用sapply比較每個t與1:5的相等性，並將其與y.val>0的&組合。

within(mydata, It <- +(sapply(1:5, `==`, t) & y.val>0))
#   sub t y.val It.1 It.2 It.3 It.4 It.5
#1    1 1    10    1    0    0    0    0
#2    1 2    20    0    1    0    0    0
#3    1 3    13    0    0    1    0    0
#4    2 1     5    1    0    0    0    0
#5    2 2     7    0    1    0    0    0
#6    2 3     8    0    0    1    0    0
#7    2 4     0    0    0    0    0    0
#8    3 1    45    1    0    0    0    0
#9    3 2    17    0    1    0    0    0
#10   3 3    25    0    0    1    0    0
#11   3 4    12    0    0    0    1    0
#12   3 5    10    0    0    0    0    1
#13   4 1    40    1    0    0    0    0
#14   4 2     0    0    0    0    0    0
#15   4 3     0    0    0    0    0    0
#16   4 4     5    0    0    0    1    0
#17   4 5     8    0    0    0    0    1

Answer 4

這是一個 tidyverse 解決方案，使用pivot_wider ：

library(tidyverse)

mydata %>%
  mutate(new_col = paste0("It", t),
         y_test = as.integer(y.val > 0)) %>%
  pivot_wider(id_cols = c(sub, t, y.val),
              names_from = new_col,
              values_from = y_test,
              values_fill = list(y_test = 0))

     sub     t y.val   It1   It2   It3   It4   It5
   <int> <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
 1     1     1    10     1     0     0     0     0
 2     1     2    20     0     1     0     0     0
 3     1     3    13     0     0     1     0     0
 4     2     1     5     1     0     0     0     0
 5     2     2     7     0     1     0     0     0
 6     2     3     8     0     0     1     0     0
 7     2     4     0     0     0     0     0     0
 8     3     1    45     1     0     0     0     0
 9     3     2    17     0     1     0     0     0
10     3     3    25     0     0     1     0     0
11     3     4    12     0     0     0     1     0
12     3     5    10     0     0     0     0     1
13     4     1    40     1     0     0     0     0
14     4     2     0     0     0     0     0     0
15     4     3     0     0     0     0     0     0
16     4     4     5     0     0     0     1     0
17     4     5     8     0     0     0     0     1

解釋：

創建兩列， new_col （帶有“It”的新列名）和y_test （ y.val > 0）。
Pivot new_col值轉換為列名。
用零填充NA值。

Answer 5

一個purrr和dplyr選項可以是：

map_dfc(.x = 1:5,
        ~ mydata %>%
         mutate(!!paste0("It", .x) := as.integer(t == .x & y.val > 0)) %>%
         select(starts_with("It"))) %>%
 bind_cols(mydata)

   It1 It2 It3 It4 It5 sub t y.val
1    1   0   0   0   0   1 1    10
2    0   1   0   0   0   1 2    20
3    0   0   1   0   0   1 3    13
4    1   0   0   0   0   2 1     5
5    0   1   0   0   0   2 2     7
6    0   0   1   0   0   2 3     8
7    0   0   0   0   0   2 4     0
8    1   0   0   0   0   3 1    45
9    0   1   0   0   0   3 2    17
10   0   0   1   0   0   3 3    25
11   0   0   0   1   0   3 4    12
12   0   0   0   0   1   3 5    10
13   1   0   0   0   0   4 1    40
14   0   0   0   0   0   4 2     0
15   0   0   0   0   0   4 3     0
16   0   0   0   1   0   4 4     5
17   0   0   0   0   1   4 5     8

或者如果你想根據 t 列中的范圍動態執行它：

map_dfc(.x = reduce(as.list(range(mydata$t)), `:`),
        ~ mydata %>%
         mutate(!!paste0("It", .x) := as.integer(t == .x & y.val > 0)) %>%
         select(starts_with("It"))) %>%
 bind_cols(mydata)

如何在 R 中為每列添加不同條件的多列？

問題描述

5 個解決方案

解決方案1
4 已采納 2020-02-12 05:14:58

解決方案2
3 2020-02-12 05:46:00

解決方案3
3 2020-02-12 08:11:04

解決方案4
2 2020-02-12 05:21:01

解決方案5
2 2020-02-12 06:58:38

如何在 R 中為每列添加不同條件的多列？

問題描述

5 個解決方案

解決方案1 4 已采納 2020-02-12 05:14:58

解決方案2 3 2020-02-12 05:46:00

解決方案3 3 2020-02-12 08:11:04

解決方案4 2 2020-02-12 05:21:01

解決方案5 2 2020-02-12 06:58:38

解決方案1
4 已采納 2020-02-12 05:14:58

解決方案2
3 2020-02-12 05:46:00

解決方案3
3 2020-02-12 08:11:04

解決方案4
2 2020-02-12 05:21:01

解決方案5
2 2020-02-12 06:58:38