[英]Find # of pages in a multipage table
我正在尝试提取多页表 URL 中的页数
HTML=<span style="float:right">Page 1 of 63,917</span>
需要提取 63917。
我用了
soup = bsoup(r.text)
pages=re.findall(r"Page 1 of\s(.+)<\/span>", str(soup))
print(pages)
但是 print(pages) 会返回大量 HTML 直到正文结束
##'63,917</span></div><table class="table table-striped##
为什么我的正则表达式不起作用? 以及如何仅从 HTML 响应中提取 #?
您的正则表达式不起作用,因为您在分组括号(.+)
中使用了贪婪捕获。 按照您的编写方式, .+
匹配从Page 1 of\\s
开始(直到文档中的最后一个</span>
标记)的所有内容。 您需要使用非贪婪加入捕捉?
在+
,像这样:
Page 1 of\s(.+?)<\/span>
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.