帶有未更改的URL和JS鏈接的Python抓取頁面

Question

有沒有什么辦法可以超越本文的第一頁：

https://www.sportstats.ca/display-results.xhtml?raceid=23666

我過去曾經嘗試過Selenium，並且取得了不同程度的成功。 我發現它很重，有時不起作用，有時會掛起。 如果可能的話，我寧願避免使用它，而只是使用urllib.request並對標頭/ cookie進行一些操作以找到我想要的數據。

這些是障礙：

1）轉到其他頁面時，URL不變。

2）轉到下一頁的鏈接（例如）是JS之類的，並且不易處理：

<li><a id="mainForm:j_idt341" href="#" class="ui-commandlink ui-widget fa fa-angle-right" onclick="PrimeFaces.ab({s:&quot;mainForm:j_idt341&quot;,p:&quot;mainForm&quot;,u:&quot;mainForm:result_table mainForm:pageNav mainForm:eventAthleteDetailsDialog&quot;,onco:function(xhr,status,args){hideDetails('athlete-popup');showDetails('event-popup');scrollToTopOfElement('mainForm\\:result_table');;}});return false;"></a>

誰能指出我正確的方向來瀏覽此頁面並刮擦每一頁。

Answer 1

我認為您可以使用Selenium做到這一點，而無需費心。 按鈕的ID遵循遞增的模式“ mainForm：j_idt336： 0 ：j_idt338”。 您可以從Selenium中找到帶有ID的按鈕，也可以將“>”按鈕單獨移動，也可以使用ID。 id似乎是通過某種方式生成的，但是您可以使您的硒腳本以該格式為參數，並創建另一個腳本以獲取該id格式。 也看一下機械化。

帶有未更改的URL和JS鏈接的Python抓取頁面

問題描述

1 個解決方案

解決方案1
0 2015-10-19 14:59:57

帶有未更改的URL和JS鏈接的Python抓取頁面

問題描述

1 個解決方案

解決方案1 0 2015-10-19 14:59:57

解決方案1
0 2015-10-19 14:59:57