使用 Selenium 和 Python 抓取网站时无法找到分页链接

Question

我正在学习使用 Selenium 进行 web 抓取。 我对正在使用的网站有几个问题：

- 该网站有多个页面到 go 并且我似乎找不到找到页面路径和 go 的方法。 例如，以下代码将link_page返回为NoneType 。

from selenium import webdriver

import time
driver = webdriver.Chrome('chromedriver')

driver.get('https://www.oddsportal.com/soccer/england/premier-league')
time.sleep(0.5)
results_button = driver.find_element_by_xpath('/html/body/div[1]/div/div[2]/div[6]/div[1]/div/div[1]/div[2]/div[1]/div[2]/ul/li[3]/span')
results_button.click()
time.sleep(3)

season_button = driver.find_element_by_xpath('/html/body/div[1]/div/div[2]/div[6]/div[1]/div/div[1]/div[2]/div[1]/div[3]/ul/li[2]/span/strong/a')
season_button.click()

link_page = driver.find_element_by_xpath('/html/body/div[1]/div/div[2]/div[6]/div[1]/div/div[1]/div[2]/div[1]/div[6]/div/a[3]/span').get_attribute('href')
print(link_page.text)
driver.get(link_page)

- 出于某种原因，我必须使用results_button才能获得匹配项的href 。 例如，下面的代码尝试 go 页面直接（试图规避上面的问题 1），但link_page返回NoSuchElementException错误。

from selenium import webdriver
import time

driver = webdriver.Chrome('chromedriver')
driver.get('https://www.oddsportal.com/soccer/england/premier-league/results/#/page/2')
time.sleep(3)

link_page = driver.find_element_by_xpath('/html/body/div[1]/div/div[2]/div[6]/div[1]/div/div[1]/div[2]/div[1]/div[6]/table/tbody/tr[11]/td[2]/a').get_attribute('href')
print(link_page.text)
driver.get(link_page)

Answer 1

要使用Selenium将页面定位到 go 上，您需要为visibility_of_all_elements_located()诱导WebDriverWait ，您可以使用以下定位器策略：

使用XPATH ：

 driver.get('https://www.oddsportal.com/soccer/england/premier-league/') WebDriverWait(driver, 20).until(EC.element_to_be_clickable((By.XPATH, "//a[text()='RESULTS']"))).click() WebDriverWait(driver, 20).until(EC.element_to_be_clickable((By.XPATH, "//a[text()='2018/2019']"))).click() print([my_elem.get_attribute("href") for my_elem in WebDriverWait(driver, 10).until(EC.visibility_of_all_elements_located((By.XPATH, "//span[@class='active-page']//following::a[@x-page]/span[not(contains(., '|')) and not(contains(., '»'))]/..")))])

控制台 Output：

 ['https://www.oddsportal.com/soccer/england/premier-league-2018-2019/results/#/page/2/', 'https://www.oddsportal.com/soccer/england/premier-league-2018-2019/results/#/page/3/', 'https://www.oddsportal.com/soccer/england/premier-league-2018-2019/results/#/page/4/', 'https://www.oddsportal.com/soccer/england/premier-league-2018-2019/results/#/page/5/', 'https://www.oddsportal.com/soccer/england/premier-league-2018-2019/results/#/page/6/', 'https://www.oddsportal.com/soccer/england/premier-league-2018-2019/results/#/page/7/', 'https://www.oddsportal.com/soccer/england/premier-league-2018-2019/results/#/page/8/']

注意：您必须添加以下导入：

 from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditions as EC

使用 Selenium 和 Python 抓取网站时无法找到分页链接

问题描述

1 个解决方案

解决方案1
1 已采纳 2020-06-05 20:38:15

使用 Selenium 和 Python 抓取网站时无法找到分页链接

问题描述

1 个解决方案

解决方案1 1 已采纳 2020-06-05 20:38:15

解决方案1
1 已采纳 2020-06-05 20:38:15