簡體   English   中英

帶有未更改的URL和JS鏈接的Python抓取頁面

[英]Python scrape page with unchanging URL and JS links

有沒有什么辦法可以超越本文的第一頁:

https://www.sportstats.ca/display-results.xhtml?raceid=23666

我過去曾經嘗試過Selenium,並且取得了不同程度的成功。 我發現它很重,有時不起作用,有時會掛起。 如果可能的話,我寧願避免使用它,而只是使用urllib.request並對標頭/ cookie進行一些操作以找到我想要的數據。

這些是障礙:

1)轉到其他頁面時,URL不變。

2)轉到下一頁的鏈接(例如)是JS之類的,並且不易處理:

<li><a id="mainForm:j_idt341" href="#" class="ui-commandlink ui-widget fa fa-angle-right" onclick="PrimeFaces.ab({s:&quot;mainForm:j_idt341&quot;,p:&quot;mainForm&quot;,u:&quot;mainForm:result_table mainForm:pageNav mainForm:eventAthleteDetailsDialog&quot;,onco:function(xhr,status,args){hideDetails('athlete-popup');showDetails('event-popup');scrollToTopOfElement('mainForm\\:result_table');;}});return false;"></a>

誰能指出我正確的方向來瀏覽此頁面並刮擦每一頁。

我認為您可以使用Selenium做到這一點,而無需費心。 按鈕的ID遵循遞增的模式“ mainForm:j_idt336: 0 :j_idt338”。 您可以從Selenium中找到帶有ID的按鈕,也可以將“>”按鈕單獨移動,也可以使用ID。 id似乎是通過某種方式生成的,但是您可以使您的硒腳本以該格式為參數,並創建另一個腳本以獲取該id格式。 也看一下機械化

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM