在R中循環具有相同后綴的多個變量

Question

我有一個看起來像這樣但有更多行和列的數據庫。

在不同時間 (1,2,3) 測量的幾個變量 (x,y,z)。

df <-
  tibble(
    x1 = rnorm(10),
    x2 = rnorm(10),
    x3 = rnorm(10),
    y1 = rnorm(10),
    y2 = rnorm(10),
    y3 = rnorm(10),
    z1 = rnorm(10),
    z2 = rnorm(10),
    z3 = rnorm(10),
  )

我正在嘗試從具有相同后綴（同時測量）的變量創建虛擬變量，如下所示：

df <- df %>% 
  mutate(var1= ifelse(x1>0 & (y1<0.5 |z1<0.5),0,1)) %>% 
  mutate(var2= ifelse(x2>0 & (y2<0.5 |z2<0.5),0,1)) %>%
  mutate(var3= ifelse(x3>0 & (y1<0.5 |z3<0.5),0,1))

我習慣用 SAS 或 Stata 編碼，所以我想使用函數或循環，因為我的數據庫中有更多變量。 但我認為我在 R 中沒有正確的方法來處理這個問題。

非常感謝您的幫助！

Answer 1

{dplyover} 使這種操作變得容易（免責聲明：我是維護者），因為您想要的輸出包含一個錯字：

我認為您想在每次計算中使用具有相同數字（1、2、3 等）的所有變量：

df <- df %>% 
  mutate(var1= ifelse(x1>0 & (y1<0.5 |z1<0.5),0,1)) %>% 
  mutate(var2= ifelse(x2>0 & (y2<0.5 |z2<0.5),0,1)) %>%
  mutate(var3= ifelse(x3>0 & (y3<0.5 |z3<0.5),0,1))

如果是這種情況，我們可以使用dplyover::over在向量上應用相同的函數。 在這里，我們使用extract_names("[0-9]{1}$")構造向量，它在此處獲取變量名稱的所有結尾數字： c(1,2,3) 。 然后，我們可以使用特殊語法構造變量名稱： .("x{.x}") 。 這里.x計算為向量中的第一個數字，因此它將返回對象名稱x1 （不是字符串！），我們可以在over的函數參數中使用它。

library(dplyr)
library(dplyover) # Only on GitHub: https://github.com/TimTeaFan/dplyover

df %>% 
  mutate(over(cut_names("^[a-z]{1}"),
              ~ ifelse(.("x{.x}") > 0 & (.("y{.x}") < 0.5 | .("z{.x}") < 0.5), 0, 1),
              .names = "var{x}"
              ))

#> # A tibble: 10 x 12
#>        x1      x2      x3      y1     y2     y3     z1     z2       z3  var1
#>     <dbl>   <dbl>   <dbl>   <dbl>  <dbl>  <dbl>  <dbl>  <dbl>    <dbl> <dbl>
#>  1  0.690  0.550   0.911   0.203  -0.111  0.530 -2.09   0.189  0.147       0
#>  2 -0.238  1.32   -0.145   0.744   1.05  -0.448  2.05  -1.04   1.50        1
#>  3  0.888  0.898  -1.46   -1.87   -1.14   1.59   1.91  -0.155  1.46        0
#>  4 -2.78  -1.34   -0.486  -0.0674  0.246  0.141  0.154  1.08  -0.319       1
#>  5 -1.20   0.835   1.28   -1.32   -0.674  0.115  0.362  1.06   0.515       1
#>  6  0.622 -0.713   0.0525  1.79   -0.427  0.819 -1.53  -0.885  0.00237     0
#>  7 -2.54   0.0197  0.942   0.230  -1.37  -1.02  -1.55  -0.721 -1.06        1
#>  8 -0.434  1.97   -0.274   0.848  -0.482 -0.422  0.197  0.497 -0.600       1
#>  9 -0.316 -0.219   0.467  -1.97   -0.718 -0.442 -1.39  -0.877  1.52        1
#> 10 -1.03   0.226   2.04    0.432  -1.02  -0.535  0.954 -1.11   0.804       1
#> # ... with 2 more variables: var2 <dbl>, var3 <dbl>

或者，我們可以使用dplyr::across並使用cur_column() 、 get()和gsub()來即時更改列的名稱。 為了正確命名新變量，我們在 cross 的.names參數中使用gsub()並將其包裹across大括號{}中以評估表達式。

library(dplyr)

df %>% 
  mutate(across(starts_with("x"),
                ~ {
                  cur_c <- dplyr::cur_column()
                  ifelse(.x > 0 & (get(gsub("x","y", cur_c)) < 0.5 | get(gsub("x","z", cur_c)) < 0.5), 0, 1)
                },
                .names = '{gsub("x", "var", .col)}'
                ))

#> # A tibble: 10 x 12
#>         x1      x2     x3     y1      y2     y3      z1      z2      z3  var1
#>      <dbl>   <dbl>  <dbl>  <dbl>   <dbl>  <dbl>   <dbl>   <dbl>   <dbl> <dbl>
#>  1 -0.423  -1.42   -1.15  -1.54   1.92   -0.511 -0.739   0.501   0.451      1
#>  2 -0.358   0.164   0.971 -1.61   1.96   -0.675 -0.0188 -1.88    1.63       1
#>  3 -0.453  -0.758  -0.258 -0.449 -0.795  -0.362 -1.81   -0.780  -1.90       1
#>  4  0.855   0.335  -1.36   0.796 -0.674  -1.37  -1.42   -1.03   -0.560      0
#>  5  0.436  -0.0487 -0.639  0.352 -0.325  -0.893 -0.746   0.0548 -0.394      0
#>  6 -0.228  -0.240  -0.854 -0.197  0.884   0.118 -0.0713  1.09   -0.0289     1
#>  7 -0.949  -0.231   0.428  0.290 -0.803   2.15  -1.11   -0.202  -1.21       1
#>  8  1.88   -0.0980 -2.60  -1.86  -0.0258 -0.965 -1.52   -0.539   0.108      0
#>  9  0.221   1.58   -1.46  -0.806  0.749   0.506  1.09    0.523   1.86       0
#> 10  0.0238 -0.389  -0.474  0.512 -0.448   0.178  0.529   1.56   -1.12       1
#> # ... with 2 more variables: var2 <dbl>, var3 <dbl>

^{由reprex 包（v2.0.1）於 2022-06-08 創建}

Answer 2

您可以按照整潔數據的原則重構您的數據（參見例如https://cran.r-project.org/web/packages/tidyr/vignettes/tidy-data.html ）。

這里是長格式並使用tidyverse ：

library(tidyverse)

df <-
  df |>
  pivot_longer(everything()) |>
  separate(name, c("var", "time"), sep = "(?=[0-9])") |>
  pivot_wider(id_col = "time",
              names_from = "var",
              names_prefix = "var_",
              values_from = "value",
              values_fn = list) |>
  unnest(-time) |>
  mutate(new_var = ifelse(var_x > 0 & (var_y < 0.5 | var_z < 0.5), 0, 1))

  df

您可能希望將數據保留為長格式，但如果您願意，您可以pivot_wider並返回到您開始使用的格式。例如

df |>
  pivot_wider(values_from = c(starts_with("var_"), "new_var"),
              names_from = "time",
              values_fn = list) |> 
  unnest(everything())

Answer 3

正如您所建議的，使用循環的解決方案絕對是可能的。

# times as unique non-alphabetical parts of column names
times <- unique(gsub('[[:alpha:]]', '', names(df)))
for (time in times) {
  
  # column names for current time
  xyz <- paste0(c('x', 'y', 'z'), time)
  df[[paste0('var', time)]] <- 
    ifelse(df[[xyz[1]]]>0 & (df[[xyz[2]]]<.5 | df[[xyz[3]]]<.5), 0, 1)
}

我能想到的另一種方法是將數據轉換為 3D 數組（觀察 × 變量 × 時間），這樣您就可以一次真正地對所有變量進行計算。

times <- unique(gsub('[[:alpha:]]', '', names(df)))
df.arr <- sapply(c('x', 'y', 'z'), 
                 function(var) as.matrix(df[, paste0(var, times)]), 
                 simplify='array')
new.vars <- ifelse(df.arr[, , 1]>0 & (df.arr[, , 2]<0.5 | df.arr[, , 3]<0.5), 0, 1)
colnames(new.vars) <- paste0('var', times)
cbind(df, new.vars)

在這里， sapply根據每個變量在不同時間的測量值列創建一個矩陣，並將它們堆疊成一個 3D 數組。

如果您信任（或確保）數據框中列的正確排序，而不是使用sapply ，您可以僅通過修改對象的維度來創建數組。 我沒有做任何基准測試，但我想這可能是計算效率最高的解決方案（如果重要的話）。

df.arr <- as.matrix(df)
dim(df.arr) <- c(dim(df.arr) / c(1, 3), 3)

在R中循環具有相同后綴的多個變量

問題描述

3 個解決方案

解決方案1
0 2022-06-08 10:26:14

解決方案2
0 2022-06-08 10:59:57

解決方案3
0 2022-06-08 13:19:23

在R中循環具有相同后綴的多個變量

問題描述

3 個解決方案

解決方案1 0 2022-06-08 10:26:14

解決方案2 0 2022-06-08 10:59:57

解決方案3 0 2022-06-08 13:19:23

解決方案1
0 2022-06-08 10:26:14

解決方案2
0 2022-06-08 10:59:57

解決方案3
0 2022-06-08 13:19:23