使用 Selenium 在 Python 中抓取網頁

Question

我是網絡抓取的新手，我正面臨一個問題。 在附加部分，它似乎只附加了我想刮的表的第一行！ 我確定我錯過了一些東西。 有任何想法嗎？ 提前致謝！ 代碼片段如下：

driver = visit_main_page()

contents = driver.find_elements_by_xpath('//*[@id="mw-content-text"]/div[1]')

tables = contents[0].find_elements_by_xpath('//*[@id="mw-content-text"]/div[1]/table')

data = {"Date": [], "Time": [], "Place": [], "Latitude": [], "Longitude": [], "Fatalities": [], "Magnitude": []}

for i in tables:

    try:
        dates = driver.find_elements_by_xpath('//*[@id="mw-content-text"]/div[1]/table[2]/tbody/tr[1]/td[1]')
        times = driver.find_elements_by_xpath('//*[@id="mw-content-text"]/div[1]/table[2]/tbody/tr[1]/td[2]')
        places = driver.find_elements_by_xpath('//*[@id="mw-content-text"]/div[1]/table[2]/tbody/tr[1]/td[3]')
        lat = driver.find_elements_by_xpath('//*[@id="mw-content-text"]/div[1]/table[2]/tbody/tr[1]/td[4]')
        long = driver.find_elements_by_xpath('//*[@id="mw-content-text"]/div[1]/table[2]/tbody/tr[1]/td[5]')
        fat = driver.find_elements_by_xpath('//*[@id="mw-content-text"]/div[1]/table[2]/tbody/tr[1]/td[6]')
        magn = driver.find_elements_by_xpath('//*[@id="mw-content-text"]/div[1]/table[2]/tbody/tr[1]/td[7]')
    except NoSuchElementException:
        print('No such content!')
        pass
    time.sleep(1)

    for d in dates:
        data['Date'].append(d.text)

    for t in times:
        data['Time'].append(t.text)

    for p in places:
        data['Place'].append(p.text)

    for la in lat:
        data['Latitude'].append(la.text)

    for lo in long:
        data['Longitude'].append(lo.text)

    for f in fat:
        data['Fatalities'].append(f.text)

    for m in magn:
        data['Magnitude'].append(m.text)

Answer 1

UPD
您使用了錯誤的定位器。
您嘗試獲取的所有參數都以//*[@id="mw-content-text"]/div[1]/table[2]開頭 - 這指向特定表。
要收集您正在尋找的數據，請嘗試以下操作：

dates = driver.find_elements_by_xpath("//table[contains(@class,'wikitable')]//tbody//tr//td[1]")
times = driver.find_elements_by_xpath("//table[contains(@class,'wikitable')]//tbody//tr//td[2]")
places = driver.find_elements_by_xpath("//table[contains(@class,'wikitable')]//tbody//tr//td[3]")
lat = driver.find_elements_by_xpath("//table[contains(@class,'wikitable')]//tbody//tr//td[4]")
long = driver.find_elements_by_xpath("//table[contains(@class,'wikitable')]//tbody//tr//td[5]")
fat = driver.find_elements_by_xpath("//table[contains(@class,'wikitable')]//tbody//tr//td[6]")
magn = driver.find_elements_by_xpath("//table[contains(@class,'wikitable')]//tbody//tr//td[7]")


dates = driver.find_elements_by_xpath("//table[contains(@class,'wikitable')]//tbody//tr//td[1]")

這是主要問題。 之后的代碼看起來是正確的。
您不必使用這種方法獲取contents和tables

使用 Selenium 在 Python 中抓取網頁

問題描述

1 個解決方案

解決方案1
0 已采納 2021-07-19 14:26:22

使用 Selenium 在 Python 中抓取網頁

問題描述

1 個解決方案

解決方案1 0 已采納 2021-07-19 14:26:22

解決方案1
0 已采納 2021-07-19 14:26:22