从R中的字符串中间提取连续的单词

Question

好的，所以我是 regexpr 的新手，我的大脑快要炸了。 我想做的是从字符串中提取单词二和三。 例如：

sentence <- "Certified 2017 Mazda CX-5 AWD Touring"
TheFunction(sentence)

应该返回“2017 Mazda”

我最初的尝试是使用类似的东西：

sub("\\s\\S+\\s\\S+\\s", "\\1", sentence)

但正在惨败。 我的想法是找到匹配“space-word-space-word-space”的第一个模式

Answer 1

您可以使用 strsplit 然后将第二个和第三个单词粘贴在一起

paste(strsplit(sentence, split = '\\s')[[1]][2:3], collapse = " ")