網絡爬行到桌子

Question

我希望在以下網站上抓取表格：https://www.pro14rugby.org/match-centre/results 。

有一個小部件可以在季節之間切換。 在此窗口小部件切換器之后，所有數據都保存在表中。

我提取的html只能到達小部件切換器。

我是網絡爬蟲的新手，因此歡迎向正確的方向發展。

我查看了網絡，看是否有一個網址可以讓我通過這一點。

def download(url, user_agent='<My_Email>', num_retries=2):

    print('Downloading:', url)
    headers = {'User-Agent': user_agent}
    try:
        resp = requests.get(url, headers=headers)
        html = resp.text
        if resp.status_code >= 400:
            print('Download error:', resp.text)
            html = None
            if num_retries and 500 <= resp.status_code < 600:
                # recursively retry 5xx HTTP errors
                return download(url, num_retries - 1)
    except requests.exceptions.RequestException as e:
        print('Download error:', e)
        html = None
    return html

page='https://www.pro14rugby.org/match-centre/results'

html=download(page)

期望看到帶有代碼路徑的html代碼，正如我在檢查時所看到的。 我了解該小部件是動態的，因此有意義的是，我需要在代碼中輸入條件以獲取每個季節。 任何這樣做的建議都將受到歡迎。

謝謝

Answer 1

該網站使用jQuery來顯示帶有所選季節的表格。 可能無法通過requests和BeautifulSoup進行抓取。 Selenium可以用於刮擦文本，如下所示：

from selenium import webdriver
from selenium.webdriver.support.select import Select
import time

driver = webdriver.Firefox()
driver.maximize_window()

driver.get("https://www.pro14rugby.org/match-centre/results")

for i in range(18):
    s= Select(driver.find_element_by_class_name('widgetSwitcher'))
    s.select_by_index(i)
    time.sleep(6)
    val = driver.find_element_by_class_name('sotic-widget').text
    print(val.replace('REPORT',''))

driver.quit()

該腳本將打印表中的所有文本並退出。

網絡爬行到桌子

問題描述

1 個解決方案

解決方案1
1 2019-07-22 16:25:24

網絡爬行到桌子

問題描述

1 個解決方案

解決方案1 1 2019-07-22 16:25:24

解決方案1
1 2019-07-22 16:25:24