匹配 R 中所有可能子字符串的另一個列表中的多個子字符串

Question

雖然我在之前的帖子中收到了一些很好的反饋，但我相信我最初的問題並不完全清楚，因此答案並沒有產生預期的結果。

我有一個字符變量字符串的長向量，其中大約 600K 觀察值具有 800 個唯一字符串值。 我試圖根據另一個重要字符串變量的向量將這 800 個唯一字符串縮小到大約 20 個唯一字符串。

這是一個例子：

col1 <- c("CORE_I5-xxxx_6C_VPRO", "A6-xxxx_MB", "CORE_I7-xxxx_4C_VPRO_MB", "INTEL_CORE_I3_MB", NA)
col2 <- c("CORE_I5_VPRO", NA, "CORE_I7_VPRO", "INTEL_CORE_I3", NA)

新列 (col2) 已從舊列 (col1) 基於以下字符變量 (V) 創建，僅保留 V 中包含的字符串：

V <- c("CORE", "INTEL", "I5", "I7", "I3", NA)

我嘗試了以下代碼，但它只給了我部分字符串，而不是每個觀察中的所有元素。

library(stringr)
col2 <- str_extract(col1, paste(V, collapse="|"))

我也嘗試了我之前帖子的建議，但不幸的是我沒有得到想要的 output。 謝謝大家的幫助

Answer 1

這里我們創建x然后使用grepl ：

library(stringr)

x <- str_replace_all(str_remove(S, '(\\d+\\_)'), '\\_', '')

x[grepl(paste0(V, collapse = "|"), x)]

[1] "INTELI5VPRO" "COREdfds"    "VPROLI9"

Answer 2

您可以按照原來的方法，但使用str_extract_all和sapply() ，如下所示：

sapply(str_extract_all(S, paste(V, collapse = "|")),paste0, collapse="")

Output

[1] "INTELI5VPRO" "CORE"        ""            "VPROI9"      "NA"

或者，您可以執行以下操作：

lapply(S, \(s) {
    x = strsplit(s, "_")[[1]]
    result = paste0(x[x %in% V], collapse="")
    ifelse(result=="", as.character(NA),result)
}) %>% unlist()

Output

[1] "INTELI5VPRO" "CORE"        NA            "I9"          NA

Answer 3

str_extract_all為您提供命中矩陣。 連接每一行的字符串幾乎可以為您提供所需的結果。 只有第三項是""而不是NA 。

library(stringr)

S = c('123_INTEL_I5_VPRO', '531_CORE_dfds', '93_RAYZEN_29dad', '452_VPROL_I9', NA)
V = c('INTEL','CORE', 'VPRO', 'I5', 'I9')


matches <- sapply(V, function (x) str_extract_all(S, x))
result <- apply(matches, 1, function(x) str_flatten(unlist(x))) # concatenate rows
result[result == ""] <- NA
result
#> [1] "INTELVPROI5" "CORE"        NA            "VPROI9"      NA

^{由代表 package (v2.0.1) 於 2022 年 6 月 30 日創建}

Answer 4

您想使用str_extract_all並處理像 position 3 中的空提取（基於您的代碼）：

sapply(str_extract_all(S, paste(V, collapse = "|")),
       function(x) ifelse(length(x) != 0, str_flatten(x), NA)
       )

#> [1] "INTELI5VPRO" "CORE"        NA            "VPROI9"      NA

匹配 R 中所有可能子字符串的另一個列表中的多個子字符串

問題描述

4 個解決方案

解決方案1
2 2022-06-30 21:13:47

解決方案2
1 2022-06-30 21:07:50

解決方案3
1 2022-06-30 21:11:20

解決方案4
0 2022-06-30 21:30:16

匹配 R 中所有可能子字符串的另一個列表中的多個子字符串

問題描述

4 個解決方案

解決方案1 2 2022-06-30 21:13:47

解決方案2 1 2022-06-30 21:07:50

解決方案3 1 2022-06-30 21:11:20

解決方案4 0 2022-06-30 21:30:16

解決方案1
2 2022-06-30 21:13:47

解決方案2
1 2022-06-30 21:07:50

解決方案3
1 2022-06-30 21:11:20

解決方案4
0 2022-06-30 21:30:16