Selenium 無法在 HTML 頁面中找到所有元素

Question

我正在做 web 抓取到房地產門戶網站 <www.immobiliare.it>

具體來說，我正在從搜索頁面中檢索一些信息，每頁包含 25 個屬性。 我設法檢索了幾乎所有內容，但我無法檢索每個屬性具有的 map 圖像的 src。 這個 map 在 CSS 選擇器之后。

HTML結構如下：

我已經能夠通過 selenium 獲取此數據： https://stackoverflow.com/a/75020969/14461986

from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager

Options = Options()
Options.headless = True

driver = webdriver.Chrome(options=Options, service=Service(ChromeDriverManager().install()))
url = 'https://www.immobiliare.it/vendita-case/milano/forlanini/?criterio=dataModifica&ordine=desc&page=3'
driver.get(url)

soup = BeautifulSoup(driver.page_source)

data = []

# Each property is contained under each li in-realEstateResults__item
for property in soup.select('li.in-realEstateResults__item'):

    data.append({
            'id': property.get('id'),
            'MapUrl': property.select_one('[alt="mappa"]').get('src') if property.select_one('[alt="mappa"]') else None
        })

print(data)

但是，在第 4 個圖像之后，MapUrl 變空了。 這些屬性已正確加載，因為我已經檢查了 ID，並且圖像的 rest 的 HTML 是相同的，但出於某種原因我不明白未檢索到 MapUrl。 我也歡迎任何關於如何使這個腳本更有效的建議。

Answer 1

但是，這里的問題是延遲加載，因此您必須與網站交互並向下滾動以強制加載。

您可能必須接受/關閉一些彈出窗口（可選）：

driver.find_element(By.CSS_SELECTOR,'#didomi-notice-agree-button').click()
driver.find_element(By.CSS_SELECTOR,'.nd-dialogFrame__close').click()
driver.find_element(By.CSS_SELECTOR,'section h1').click()

現在我們可以開始滾動了（簡單但有效的解決方案，可以改進）：

for i in range(30):
        driver.find_element(By.CSS_SELECTOR,'body').send_keys(Keys.PAGE_DOWN)
        time.sleep(0.3)

例子

from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))

url = 'https://www.immobiliare.it/vendita-case/milano/forlanini/?criterio=dataModifica&ordine=desc'
driver.get(url)


driver.find_element(By.CSS_SELECTOR,'#didomi-notice-agree-button').click()
driver.find_element(By.CSS_SELECTOR,'.nd-dialogFrame__close').click()
driver.find_element(By.CSS_SELECTOR,'section h1').click()

for i in range(30):
        driver.find_element(By.CSS_SELECTOR,'body').send_keys(Keys.PAGE_DOWN)
        time.sleep(0.3)


soup = BeautifulSoup(driver.page_source)

data = []
for e in soup.select('li.in-realEstateResults__item'):
    data.append({
        'title':e.a.get('title'),
        'imgUrls':[i.get('src') for i in e.select('.nd-list__item img')],
        'imgMapInfo': e.select_one('[alt="mappa"]').get('src') if e.select_one('[alt="mappa"]') else None
    })

data

Selenium 無法在 HTML 頁面中找到所有元素

問題描述

1 個解決方案

解決方案1
1 已采納 2023-01-09 15:59:49

例子

Selenium 無法在 HTML 頁面中找到所有元素

問題描述

1 個解決方案

解決方案1 1 已采納 2023-01-09 15:59:49

例子

解決方案1
1 已采納 2023-01-09 15:59:49