在最大长度的两个字符串之间提取字符串

Question

我有一大块来自几个合并的 pdf 的文本。 我想拿出一个部分。 问题是有时没有填充周围的部分，这会影响文本块中的结尾“字符串标记”。 具体来说，结束字符串会有所不同，具体取决于单个 pdf 文件的填写方式。

我如何做到这一点的想法是搜索两个结束字符串，并在告诉字符串提取器继续前进之前强加最大数量的单词。 这是我尝试过的：

my_text <- "NARRATIVE\nsome things happened here\nFROM:\nblah blah blah\n(HOME)\nNARRATIVE\nsomething else \n maybe long\nIMPRESSION:\nblah blah blah\n(HOME)\this keeps going and going until it finally finds\nFROM:"

tofind <- paste(c("NARRATIVE(.*?)\nIMPRESSION","NARRATIVE(.*?)\nFROM:"), collapse="|")
narrative <- as.list(str_extract_all(my_text, regex(tofind, dotall = TRUE)))

不幸的是，这只执行“tofind”的第一个参数。 我想：

whatIwant <- c("some things happened here", "something else \n maybe long")

Answer 1

如果有人在这里绊倒，这就是我解决它的方法：

tofind <- paste(c("NARRATIVE(.*?)(\nFROM|IMPRESSION)"))

它找到第一次出现的 FROM 或 IMPRESSION 以停止匹配。

在最大长度的两个字符串之间提取字符串

问题描述

1 个解决方案

解决方案1
0 2019-10-22 23:05:23

在最大长度的两个字符串之间提取字符串

问题描述

1 个解决方案

解决方案1 0 2019-10-22 23:05:23

解决方案1
0 2019-10-22 23:05:23