[英]How to compute multiple new columns in a R dataframe with dynamic names
[英]Compute multiple new columns by name pattern in R
我有按年份和國家/地區分類的人口數量、出生和死亡數據,按性別和年齡分類。 我想計算每個年份-國家-性別-年齡組合的凈遷移率。 以下是數據的樣子:
計算凈遷移率的公式(遵循數據的命名約定)為: 2001_netmigration = 2001_pop - 2000_deaths + 2000_births - 2000_pop 。 我想從 2001 年到 2020 年的所有年份執行此操作,即在所有列上執行此操作。
我嘗試了以下代碼:
n <- 2001
while(n <= 2020){
aux <- aux %>%
mutate(., paste0(n,"_netmigr") = paste0(n,"_pop") - paste0((n-1),"_deaths") +
paste0((n-1),"_births") - paste0((n-1),"_pop"), .after = paste0(n,"_pop"))
}
當我使用實際名稱而不是 paste0 命令在 while 循環內手動運行代碼時,它完全按照我的意願運行。 有沒有辦法迭代地指定/識別我沒有看到的名稱?
感謝您的任何見解!
以下是一些示例數據:
library(tidyr)
tb <- expand_grid(country = letters[1:5], sex = c("male", "female"))
for (yr in 2000:2020) tb[[paste0(yr, "_pop")]] <- sample(1e6, nrow(tb))
for (yr in 2000:2020) tb[[paste0(yr, "_births")]] <- sample(1e6, nrow(tb))
for (yr in 2000:2020) tb[[paste0(yr, "_deaths")]] <- sample(1e6, nrow(tb))
tb
# A tibble: 10 × 65
country sex `2000_pop` `2001_pop` `2002_pop` `2003_pop` `2004_pop`
<chr> <chr> <int> <int> <int> <int> <int>
1 a male 494854 125496 441605 850152 564524
2 a female 15675 700400 884402 722577 488377
3 b male 863598 430942 178898 962331 762543
...
讓我們重塑:
tb <- tb |>
pivot_longer(starts_with("20"), names_to = c("year", "var"),
names_sep = "_") |>
pivot_wider(names_from = "var")
tb
# A tibble: 210 × 6
country sex year pop births deaths
<chr> <chr> <chr> <int> <int> <int>
1 a male 2000 494854 692068 890029
2 a male 2001 125496 420085 334800
3 a male 2002 441605 341633 816369
4 a male 2003 850152 310789 766912
...
現在您的數據很整潔,不需要 for 循環或列名修改:
tb$net_migr <- tb$pop - tb$deaths + tb$births
# or
tb <- tb |> mutate(net_migr = pop - deaths + births)
如果您願意,您現在可以將tb
恢復為寬格式。 (但你為什么想要?)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.