[英]Python scrape page with unchanging URL and JS links
有沒有什么辦法可以超越本文的第一頁:
https://www.sportstats.ca/display-results.xhtml?raceid=23666
我過去曾經嘗試過Selenium,並且取得了不同程度的成功。 我發現它很重,有時不起作用,有時會掛起。 如果可能的話,我寧願避免使用它,而只是使用urllib.request並對標頭/ cookie進行一些操作以找到我想要的數據。
這些是障礙:
1)轉到其他頁面時,URL不變。
2)轉到下一頁的鏈接(例如)是JS之類的,並且不易處理:
<li><a id="mainForm:j_idt341" href="#" class="ui-commandlink ui-widget fa fa-angle-right" onclick="PrimeFaces.ab({s:"mainForm:j_idt341",p:"mainForm",u:"mainForm:result_table mainForm:pageNav mainForm:eventAthleteDetailsDialog",onco:function(xhr,status,args){hideDetails('athlete-popup');showDetails('event-popup');scrollToTopOfElement('mainForm\\:result_table');;}});return false;"></a>
誰能指出我正確的方向來瀏覽此頁面並刮擦每一頁。
我認為您可以使用Selenium做到這一點,而無需費心。 按鈕的ID遵循遞增的模式“ mainForm:j_idt336: 0 :j_idt338”。 您可以從Selenium中找到帶有ID的按鈕,也可以將“>”按鈕單獨移動,也可以使用ID。 id似乎是通過某種方式生成的,但是您可以使您的硒腳本以該格式為參數,並創建另一個腳本以獲取該id格式。 也看一下機械化 。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.