使用 Selenium 在 python 中进行网页抓取问题

Question

我正在尝试在 python 中使用 selenium 进行抓取。 我想要来自这个站点和部分的太阳能数据： https ://www.caiso.com/TodaysOutlook/Pages/supply.html#section-renewables-trend

我认为我遇到的问题是Chart data (CSV)菜单选项不能用作按钮，因此单击它不起作用。 这是我在单击“图表数据（CSV）”菜单选项之前和之后检查元素时看到的。

之前： <a class="dropdown-item mb-0" id="downloadRenewablesCSV" data-type="text/csv">Chart data (CSV)</a>

之后： <a class="dropdown-item mb-0" id="downloadRenewablesCSV" data-type="text/csv" href="data:text/csv;charset=utf8,Renewables%2007%2F20%2 ... [alot of encoded data] ...2C209%2C211%2C211%2C211%2C212%2C211%2C211%2C210%0A" download="CAISO-renewables-20220720.csv">Chart data (CSV)</a>

最初我认为它只是一个按钮元素，可以下载 csv 文件并尝试这样做：

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

driver = webdriver.Chrome(executable_path='PATH')
driver.get('https://www.caiso.com/TodaysOutlook/Pages/supply.html')
button = driver.find_element(by='xpath',value='/html/body/div[1]/div[3]/div[8]/div/div/div[2]/nav/div[3]/div/a[1]')
button.click()

这是行不通的。 有什么建议吗？ 我对硒很陌生，抱歉。

Answer 1

JS 路径交互：

Xpath 选择器可能有点挑剔，我会回归基础并尝试通过 JS Path 与元素交互。 我能够重现错误并使用 JS 路径下载报告。 实现以下更新的代码：

driver.get('https://www.caiso.com/TodaysOutlook/Pages/supply.html')
driver.execute_script("el = document.querySelector('#downloadRenewablesCSV');el.click();")

Answer 2

您试图在没有实际展开下拉列表的情况下单击下载按钮，该元素在单击下拉列表时变为可交互的。

只有在单击 div 时，才会将show类动态添加到div中。

单击下拉按钮后，下面的代码应该可以工作

dropdown = driver.find_element(By.XPATH, "//button[@id='dropdownMenuRenewables']")
dropdown.click()
download_b = driver.find_element(By.XPATH, "//a[@id='downloadRenewablesCSV']")
download_b.click()

这将为您下载文件

使用 Selenium 在 python 中进行网页抓取问题

问题描述

2 个解决方案

解决方案1
1 已采纳 2022-07-20 17:56:04

JS 路径交互：

解决方案2
1 2022-07-20 18:04:33

使用 Selenium 在 python 中进行网页抓取问题

问题描述

2 个解决方案

解决方案1 1 已采纳 2022-07-20 17:56:04

JS 路径交互：

解决方案2 1 2022-07-20 18:04:33

解决方案1
1 已采纳 2022-07-20 17:56:04

解决方案2
1 2022-07-20 18:04:33