簡體   English   中英

查找多頁表中的頁數

[英]Find # of pages in a multipage table

我正在嘗試提取多頁表 URL 中的頁數

HTML=<span style="float:right">Page 1 of 63,917</span>

需要提取 63917。

我用了

soup = bsoup(r.text)
pages=re.findall(r"Page 1 of\s(.+)<\/span>", str(soup))
print(pages)

但是 print(pages) 會返回大量 HTML 直到正文結束

##'63,917</span></div><table class="table table-striped##

為什么我的正則表達式不起作用? 以及如何僅從 HTML 響應中提取 #?

您的正則表達式不起作用,因為您在分組括號(.+)中使用了貪婪捕獲。 按照您的編寫方式, .+匹配從Page 1 of\\s開始(直到文檔中的最后一個</span>標記)的所有內容。 您需要使用非貪婪加入捕捉? + ,像這樣:

Page 1 of\s(.+?)<\/span>

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM