带有未更改的URL和JS链接的Python抓取页面

Question

有没有什么办法可以超越本文的第一页：

https://www.sportstats.ca/display-results.xhtml?raceid=23666

我过去曾经尝试过Selenium，并且取得了不同程度的成功。 我发现它很重，有时不起作用，有时会挂起。 如果可能的话，我宁愿避免使用它，而只是使用urllib.request并对标头/ cookie进行一些操作以找到我想要的数据。

这些是障碍：

1）转到其他页面时，URL不变。

2）转到下一页的链接（例如）是JS之类的，并且不易处理：

<li><a id="mainForm:j_idt341" href="#" class="ui-commandlink ui-widget fa fa-angle-right" onclick="PrimeFaces.ab({s:&quot;mainForm:j_idt341&quot;,p:&quot;mainForm&quot;,u:&quot;mainForm:result_table mainForm:pageNav mainForm:eventAthleteDetailsDialog&quot;,onco:function(xhr,status,args){hideDetails('athlete-popup');showDetails('event-popup');scrollToTopOfElement('mainForm\\:result_table');;}});return false;"></a>

谁能指出我正确的方向来浏览此页面并刮擦每一页。

Answer 1

我认为您可以使用Selenium做到这一点，而无需费心。 按钮的ID遵循递增的模式“ mainForm：j_idt336： 0 ：j_idt338”。 您可以从Selenium中找到带有ID的按钮，也可以将“>”按钮单独移动，也可以使用ID。 id似乎是通过某种方式生成的，但是您可以使您的硒脚本以该格式为参数，并创建另一个脚本以获取该id格式。 也看一下机械化。

带有未更改的URL和JS链接的Python抓取页面

问题描述

1 个解决方案

解决方案1
0 2015-10-19 14:59:57

带有未更改的URL和JS链接的Python抓取页面

问题描述

1 个解决方案

解决方案1 0 2015-10-19 14:59:57

解决方案1
0 2015-10-19 14:59:57