查找多頁表中的頁數

Question

我正在嘗試提取多頁表 URL 中的頁數

HTML=<span style="float:right">Page 1 of 63,917</span>

需要提取 63917。

我用了

soup = bsoup(r.text)
pages=re.findall(r"Page 1 of\s(.+)<\/span>", str(soup))
print(pages)

但是 print(pages) 會返回大量 HTML 直到正文結束

##'63,917</span></div><table class="table table-striped##

為什么我的正則表達式不起作用？ 以及如何僅從 HTML 響應中提取 #？

Answer 1

您的正則表達式不起作用，因為您在分組括號(.+)中使用了貪婪捕獲。 按照您的編寫方式， .+匹配從Page 1 of\\s開始（直到文檔中的最后一個</span>標記）的所有內容。 您需要使用非貪婪加入捕捉? 在+ ，像這樣：

Page 1 of\s(.+?)<\/span>