[英]Regex: Smallest possible substring match
我有如下网址字符串:
"https://facty.com/ailments/body/10-home-remedies-for-styes/pageid=2/slide_3/"
现在,我需要捕获slide_3
部分,更具体地讲,数字3
的开始位置受约束,即它应该是一个单一的数字(既不能在任何数字之前也不在其后),而不能以“ =”开头。 因此, pageid=2
不应该匹配,而slide_3
应该匹配。
我用python regex尝试过这个:
p = re.compile('/.*(?<!=)(?<!\d)\d(?!\d).*/')
s = "https://facty.com/ailments/body/10-home-remedies-for-styes/pageid=2/slide_3/"
for m in p.finditer(s):
print(m.start(), m.group())
结果是
6 //facty.com/ailments/body/10-home-remedies-for-styes/pageid=2/slide_3/
我知道为什么得到这个,第一个和最后一个“ /”满足正则表达式,但是子字符串“ / slide_3 /”也是如此。
如何确保获得与正则表达式匹配的最小子字符串。
为什么这样不起作用:
'/[^/](?<!=)(?<!\d)\d(?!\d).*/'
非贪婪运算符.*?
似乎无法解决问题,因为它不能保证最短的比赛。
应该匹配的字符串:
"https://facty.com/ailments/body/10-home-remedies-for-styes/pageid=2/slide_3/"
"https://facty.com/ailments/body/10-home-remedies-for-styes/pageid=2/sno3/"
"https://facty.com/ailments/body/10-home-remedies-for-styes/pageid=2/3/"
并且匹配项应分别为slide_3,sno3,3
不应该的字符串:
"https://facty.com/ailments/body/10-home-remedies-for-styes/pageid=2/slide/"
"https://facty.com/ailments/body/10-home-remedies-for-styes/pageid=2/slide_33/"
"https://facty.com/ailments/body/10-home-remedies-for-styes/pageid=2/33/"
如果我理解您的问题,那么您可以使用它来检查字符串是否与您期望的模式匹配:
(?:^.*\/)([^\d]*\d)(?:\/?$)
和\\1
将包含:
slide_3
sno3
3
https://regex101.com/r/h0rNdC/4
这可能对获取匹配项的索引很有用: Python Regex-如何获取匹配项的位置和值
您可以匹配正斜杠,然后匹配0+乘除数字, /
, =
或换行符以外的任何字符。
在捕获组中捕获一位数字并匹配尾随的正斜杠。
要获取比赛的开始和结束索引,例如,您可以使用re.search ,它将返回一个match对象 。
/[^\d/=\r\n]*(\d)/
例如
import re
regex = r"/[^\d/=\r\n]*(\d)/"
strings = [
"https://facty.com/ailments/body/10-home-remedies-for-styes/pageid=2/slide_3/",
"https://facty.com/ailments/body/10-home-remedies-for-styes/pageid=2/sno3/",
"https://facty.com/ailments/body/10-home-remedies-for-styes/pageid=2/3/",
"https://facty.com/ailments/body/10-home-remedies-for-styes/pageid=2/slide/",
"https://facty.com/ailments/body/10-home-remedies-for-styes/pageid=2/slide_33/",
"https://facty.com/ailments/body/10-home-remedies-for-styes/pageid=2/33/"
]
for s in strings:
matches = re.search(regex, s)
if matches:
print ("Group {groupNum} found at {start}-{end} value:{group}".format(groupNum = 1, start = matches.start(1), end = matches.end(1), group = matches.group(1)))
结果
Group 1 found at 74-75 value:3
Group 1 found at 71-72 value:3
Group 1 found at 68-69 value:3
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.