繁体   English   中英

如何使用 tidyverse 重塑复杂的选举数据?

[英]How to reshape complicated elections data using tidyverse?

我需要将一个复杂的表格从成堆的选举数据行重塑为包含所有信息的格式清晰的列。 我无法自动执行此操作。

这是输入数据的简单版本。 请注意,此示例中只有 2 次选举; 在真实的数据中有很多,所以代码需要概括一下:

input <- 
  structure(list(a = c("2020 ge", "winner", NA, "2016 ge", "winner"
), b = c(NA, "orange (cat)", NA, NA, "peach (kitten)"), c = c(NA, 
"runner up", NA, NA, "runner up"), d = c(NA, "peach (kitten)", NA, 
NA, "orange (cat)"), e = c(NA, "margin", NA, NA, "margin"), f = c(NA, 
100, NA, NA, 150)), row.names = c(NA, 5L), class = "data.frame")

这是我想要的 output:

output <- 
  structure(list(`2019_winner_name` = "orange", `2020_winner_party` = "cat", 
    `2020_runner_up_name` = "peach", `2020_runner_up_party` = "kitten", 
    `2020_margin` = 100, `2016_winner_name` = "peach", `2016_winner_party` = "kitten", 
    `2016_runner_up_name` = "orange", `2016_runner_up_party` = "cat", 
    `2016_margin` = 150), row.names = 1L, class = "data.frame")

到目前为止,这是我尝试过的方法,可以使用一年:

# test data
test <-
  input %>%
  slice(1:2) %>%
  fill(c(b, c, d, e, f), .direction = c("up"))

# select first row
row_one <-
  test %>%
  select(a) %>%
  slice(1)

# select year
year  <- 
  str_extract(row_one$a, "^([0-9]*)")

# select second row as name
row_two <-
  test %>%
  select(a) %>%
  slice(2) %>%
  as.character()

# bring back to test data
test <- 
  test %>%
  mutate(a  = row_two) %>%
  slice(1) %>%
  add_row() %>%
  fill(c(b, d, f)) %>%
  mutate(a = ifelse(is.na(a), b, a),
         c = ifelse(is.na(c), d, c),
         e = ifelse(is.na(e), f, e)) %>%
  select(a, c, e) %>%
  row_to_names(1) %>%
  rename_all(funs(paste0(year, "_", .)))

# extract party variable
test <- 
  test %>%
  mutate_at(vars(contains("winner"), contains("runner")), 
            funs(party = str_extract(., "(?<=\\().+?(?=\\))"))) %>%
  mutate_at(vars(ends_with("winner"), ends_with("up")), 
            funs(name = str_extract(., "([^()]*)")))

考虑到不寻常的数据格式,有什么更简单、更简洁的方法来做到这一点? 我怎样才能使这个自动化,以便我可以在多个选举年运行它?

谢谢你。

首先,我同意@deschen 的观点,因为这是非常混乱的数据。 我建议不要尝试按照提供的方式整理/重塑数据,而是探索是否可以以更好(更整洁)的方式解析源数据。

话虽如此,可以将数据重塑和整理成您预期的 output。 请注意,这是一个相当混乱的过程,我不知道这对更大数据的概括效果如何。

library(tidyverse)

# Define a convenience function that turns a vector with an even number of elements
# into a named vector where every odd element is the name of the following even element
to_named_vec <- function(x) {
    if (length(x) == 1) return(magrittr::set_names(x, "margin")) 
    nm <- x[c(TRUE, FALSE)]
    vec <-x[c(FALSE, TRUE)]
    return(magrittr::set_names(vec, nm))
}

# First convert the input into a nested `list`
lst <- input %>%   
    t() %>%
    as.character() %>%
    discard(is.na) %>%
    split(., cumsum(str_detect(., "\\d{4}"))) %>%
    map(~ .x %>% 
            str_remove(" ge") %>%
            stringi::stri_replace_all_regex("(\\w+)\\s\\((\\w+)\\)", "name_$1_party_$2") %>% 
            str_split("_") %>% 
            unlist()) %>%
    magrittr::set_names(map_chr(., head, 1)) %>%
    map(~ .x[-1] %>% 
            split(cumsum(str_detect(.x[-1], "(winner|runner up|margin)"))) %>%
            magrittr::set_names(map_chr(., head, 1)) %>%
            map(~ .x %>% tail(-1) %>% to_named_vec() %>% bind_rows()))
    
# The last step involves `unlist`ing the nested `list`, tidying the names and 
# converting the named vector into a `tibble` with `bind_rows`.
lst %>%
    unlist() %>%
    set_names(., str_replace_all(names(.), "\\.", "_")) %>%
    set_names(., str_replace(names(.), "_margin", "")) %>%
    bind_rows()
## A tibble: 1 x 10
#`2020_winner_na~ `2020_winner_pa~ `2020_runner up~ `2020_runner up~ `2020_margin` `2016_winner_na~
#    <chr>            <chr>            <chr>            <chr>            <chr>         <chr>           
#    1 orange           cat              peach            kitten           100           peach           
## ... with 4 more variables: `2016_winner_party` <chr>, `2016_runner up_name` <chr>, `2016_runner
##   up_party` <chr>, `2016_margin` <chr>

最好逐行浏览代码,以了解每个步骤的作用; 大致,

  • 我们转置input
  • 将得到的矩阵转换为character向量,丢弃NA ,然后
  • 在出现“\d{4}”(即 GE 的年份)时拆分向量。

然后我们分别对每个list元素进行操作,通过

  • 删除字符串“ge”,
  • 用“name_orange_party_cat”替换出现的“orange (cat)”形式,
  • 拆分“_”上的条目。

rest 是从list元素本身的向量中为嵌套list元素提供适当名称的问题。

最后一步涉及unlist嵌套list并整理命名向量的名称以反映您预期的output中的名称。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM