查找多页表中的页数

Question

我正在尝试提取多页表 URL 中的页数

HTML=<span style="float:right">Page 1 of 63,917</span>

需要提取 63917。

我用了

soup = bsoup(r.text)
pages=re.findall(r"Page 1 of\s(.+)<\/span>", str(soup))
print(pages)

但是 print(pages) 会返回大量 HTML 直到正文结束

##'63,917</span></div><table class="table table-striped##

为什么我的正则表达式不起作用？ 以及如何仅从 HTML 响应中提取 #？

Answer 1

您的正则表达式不起作用，因为您在分组括号(.+)中使用了贪婪捕获。 按照您的编写方式， .+匹配从Page 1 of\\s开始（直到文档中的最后一个</span>标记）的所有内容。 您需要使用非贪婪加入捕捉? 在+ ，像这样：

Page 1 of\s(.+?)<\/span>