如何在R中的兩個字符之間提取文本

Question

我想在兩個字符串之間為所有出現的模式提取文本。 例如，我有這個字符串：

x<- "\nTYPE:    School\nCITY:   ATLANTA\n\n\nCITY:   LAS VEGAS\n\n"

我想提取ATLANTA和LAS VEGAS這樣的詞：

[1] "ATLANTA"   "LAS VEGAS"

我嘗試使用gsub(".*CITY:\\\\s|\\n","",x) 。 產生的輸出是：

[1] "  LAS VEGAS"

我想輸出兩個城市（數據中的一些模式包括超過2個城市）並輸出它們而沒有前導空格。
我也嘗試過qdapRegex包，但無法接近。 我對正則表達式不太好，所以非常感謝幫助。

Answer 1

另外一個選項：

library(stringr)
str_extract_all(x, "(?<=CITY:\\s{3}).+(?=\\n)")
[[1]]
[1] "ATLANTA"   "LAS VEGAS"

讀作：提取任何前面帶有“City：”（和三個空格）的內容，然后是“\\ n”

Answer 2

你可以用

> unlist(regmatches(x, gregexpr("CITY:\\s*\\K.*", x, perl=TRUE)))
[1] "ATLANTA"   "LAS VEGAS"

在這里， CITY:\\s*\\K.*正則表達式匹配

請注意，由於它是PCRE正則表達式，因此perl=TRUE是必不可少的。

Answer 3

選項可以是：

regmatches(x,gregexpr("(?<=CITY:).*(?=\n\n)",x,perl = TRUE))

# [[1]]
# [1] "   ATLANTA"   "   LAS VEGAS"