繁体   English   中英

匹配 R 中所有可能子字符串的另一个列表中的多个子字符串

[英]Match multiple substrings from another list of all possible substrings in R

虽然我在之前的帖子中收到了一些很好的反馈,但我相信我最初的问题并不完全清楚,因此答案并没有产生预期的结果。

我有一个字符变量字符串的长向量,其中大约 600K 观察值具有 800 个唯一字符串值。 我试图根据另一个重要字符串变量的向量将这 800 个唯一字符串缩小到大约 20 个唯一字符串。

这是一个例子:

col1 <- c("CORE_I5-xxxx_6C_VPRO", "A6-xxxx_MB", "CORE_I7-xxxx_4C_VPRO_MB", "INTEL_CORE_I3_MB", NA)
col2 <- c("CORE_I5_VPRO", NA, "CORE_I7_VPRO", "INTEL_CORE_I3", NA)

新列 (col2) 已从旧列 (col1) 基于以下字符变量 (V) 创建,仅保留 V 中包含的字符串:

V <- c("CORE", "INTEL", "I5", "I7", "I3", NA)

我尝试了以下代码,但它只给了我部分字符串,而不是每个观察中的所有元素。

library(stringr)
col2 <- str_extract(col1, paste(V, collapse="|"))

我也尝试了我之前帖子的建议,但不幸的是我没有得到想要的 output。 谢谢大家的帮助

这里我们创建x然后使用grepl

library(stringr)

x <- str_replace_all(str_remove(S, '(\\d+\\_)'), '\\_', '')

x[grepl(paste0(V, collapse = "|"), x)]
[1] "INTELI5VPRO" "COREdfds"    "VPROLI9" 

您可以按照原来的方法,但使用str_extract_allsapply() ,如下所示:

sapply(str_extract_all(S, paste(V, collapse = "|")),paste0, collapse="")

Output

[1] "INTELI5VPRO" "CORE"        ""            "VPROI9"      "NA"         

或者,您可以执行以下操作:

lapply(S, \(s) {
    x = strsplit(s, "_")[[1]]
    result = paste0(x[x %in% V], collapse="")
    ifelse(result=="", as.character(NA),result)
}) %>% unlist()

Output

[1] "INTELI5VPRO" "CORE"        NA            "I9"          NA  

str_extract_all为您提供命中矩阵。 连接每一行的字符串几乎可以为您提供所需的结果。 只有第三项是""而不是NA

library(stringr)

S = c('123_INTEL_I5_VPRO', '531_CORE_dfds', '93_RAYZEN_29dad', '452_VPROL_I9', NA)
V = c('INTEL','CORE', 'VPRO', 'I5', 'I9')


matches <- sapply(V, function (x) str_extract_all(S, x))
result <- apply(matches, 1, function(x) str_flatten(unlist(x))) # concatenate rows
result[result == ""] <- NA
result
#> [1] "INTELVPROI5" "CORE"        NA            "VPROI9"      NA

代表 package (v2.0.1) 于 2022 年 6 月 30 日创建

您想使用str_extract_all并处理像 position 3 中的空提取(基于您的代码):

sapply(str_extract_all(S, paste(V, collapse = "|")),
       function(x) ifelse(length(x) != 0, str_flatten(x), NA)
       )

#> [1] "INTELI5VPRO" "CORE"        NA            "VPROI9"      NA           

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM