[英]Find # of pages in a multipage table
我正在嘗試提取多頁表 URL 中的頁數
HTML=<span style="float:right">Page 1 of 63,917</span>
需要提取 63917。
我用了
soup = bsoup(r.text)
pages=re.findall(r"Page 1 of\s(.+)<\/span>", str(soup))
print(pages)
但是 print(pages) 會返回大量 HTML 直到正文結束
##'63,917</span></div><table class="table table-striped##
為什么我的正則表達式不起作用? 以及如何僅從 HTML 響應中提取 #?
您的正則表達式不起作用,因為您在分組括號(.+)
中使用了貪婪捕獲。 按照您的編寫方式, .+
匹配從Page 1 of\\s
開始(直到文檔中的最后一個</span>
標記)的所有內容。 您需要使用非貪婪加入捕捉?
在+
,像這樣:
Page 1 of\s(.+?)<\/span>
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.