R中的正則表達式，表示兩個字符之間可變長度的單詞

Question

如何從下面的字符串中提取單詞wordofvariablelength。

<a href=\"http://www.adrive.com/browse/wordofvariablelength\" class=\"next-button\" id=\"explore-gutter\" data-linkid=\"huiazc\"> <strong class=\"text gutter-text \">

我能夠使用下面的代碼獲取字符串的第一部分，但是有一個正則表達式，我可以使用它在“browse /”之后和“\\”之前立即獲取單詞，這里是單詞“wordofvariablelength” “使用下面的代碼

mystring = substr(mystring,nchar("<a href=\"http://www.thesaurus.com/browse/")+1,nchar("<a href=\"http://www.thesaurus.com/browse/")+20)

請注意，wordofvariablelength這個詞可以是任意長度，所以我不能硬編碼，開始和結束

Answer 1

嘗試

sub('.*?\\.com/[^/]*\\/([a-z]+).*', '\\1', mystring)
#[1] "wordofvariablelength"

要么

library(stringr)
 str_extract(mystring, perl('(?<=browse/)[A-Za-z]+'))
#[1] "wordofvariablelength"

數據

mystring <- "<a href=\"http://www.adrive.com/browse/wordofvariablelength\" class=\"next-button\" id=\"explore-gutter\" data-linkid=\"huiazc\"> <strong class=\"text gutter-text \">"

Answer 2

通過regmatches功能。

> x <- "<a href=\"http://www.adrive.com/browse/wordofvariablelength\" class=\"next-button\" id=\"explore-gutter\" data-linkid=\"huiazc\"> <strong class=\"text gutter-text \">"
> regmatches(x, regexpr('.*?"[^"]*/\\K[^/"]*(?=")', x, perl=TRUE))
[1] "wordofvariablelength"

要么

> regmatches(x, regexpr('[^/"]*(?="\\s+class=")', x, perl=TRUE))
[1] "wordofvariablelength"

要么

使用gsub更加簡單。

> gsub('.*/|".*', "", x)
[1] "wordofvariablelength"

Answer 3

你可以使用這個正則表達式

/browse\/(.*?)\\/g

這里演示https://regex101.com/r/gX4dC0/1

Answer 4

您可以使用以下正則表達式(?<=browse/).*?(?=\\\\") 。正則表達式表示：檢查我們是否有browse/ ，然后將所有后續字符最多（但不消耗） \\ 。

示例代碼（以及此處的示例程序）：

mystr <- "<a href=\"http://www.adrive.com/browse/wordofvariablelength\" class=\"next-button\" id=\"explore-gutter\" data-linkid=\"huiazc\"> <strong class=\"text gutter-text \">"
regmatches(mystr, regexpr('(?<=browse/).*?(?=\\")', mystr, perl=T))

perl=T意味着我們使用類似Perl的正則表達式風格允許使用固定寬度的后視（ (?<=browse/) ）。

輸出：

[1] "wordofvariablelength"

R中的正則表達式，表示兩個字符之間可變長度的單詞

問題描述

4 個解決方案

解決方案1
3 2015-04-09 08:20:16

數據

解決方案2
3 已采納 2015-04-09 08:24:43

解決方案3
1 2015-04-09 08:28:11

解決方案4
1 2015-04-09 08:33:44

R中的正則表達式，表示兩個字符之間可變長度的單詞

問題描述

4 個解決方案

解決方案1 3 2015-04-09 08:20:16

數據

解決方案2 3 已采納 2015-04-09 08:24:43

解決方案3 1 2015-04-09 08:28:11

解決方案4 1 2015-04-09 08:33:44

解決方案1
3 2015-04-09 08:20:16

解決方案2
3 已采納 2015-04-09 08:24:43

解決方案3
1 2015-04-09 08:28:11

解決方案4
1 2015-04-09 08:33:44