正則表達式：在兩個單詞之間得到文本（在R中）

Question

我有一個文本文檔，我試圖在“抽象”和“關鍵字”（在R中）之間獲取文本。 這是我正在使用的代碼：

gsub(".*abstract\\s*|keywords.*", "\\1", string)

然而，這不起作用，因為文本中的其他地方出現了“抽象”這個詞，所以我把它變得像這樣非貪婪（添加？在摘要前面）

gsub(".*?abstract\\s*|keywords.*", "\\1", string)

但由於某種原因，它現在需要“抽象”和“關鍵字”之間的文本（這是我想要的），但也是文本從文本中出現的第二個“抽象”開始，一直到最后。 有任何想法嗎？

Answer 1

它看起來不像你在你的搜索詞中捕獲任何東西，你只需要一些()在那里實際抓取一些東西，所以\\\\1將返回你的目標：

words <- c("these are some different abstract words that might be between keywords or they might just be bounded by abstract ideas")
gsub(".* abstract (.*) keywords.*", "\\1", words)
[1] "words that might be between"

Answer 2

我認為這應該會給你你想要的東西：

regmatches(string, gregexpr("(?<=abstract).*(?=keywords)", string, perl = TRUE))

它能做什么：

(?<=abstract)使用“向前看”功能在“抽象”一詞后面找到東西
.*匹配任意數量的關鍵字
(?=keywords)使用“look behind”在“關鍵字”之前查找內容
gregexpr在string查找給定的正則表達式
perl = TRUE允許“向前看”和“向后看”功能
regmatches使用正則表達式拉出匹配的字符串。

正則表達式：在兩個單詞之間得到文本（在R中）

問題描述

2 個解決方案

解決方案1
1 已采納 2017-01-20 00:20:01

解決方案2
1 2017-01-20 00:36:42

正則表達式：在兩個單詞之間得到文本（在R中）

問題描述

2 個解決方案

解決方案1 1 已采納 2017-01-20 00:20:01

解決方案2 1 2017-01-20 00:36:42

解決方案1
1 已采納 2017-01-20 00:20:01

解決方案2
1 2017-01-20 00:36:42