[英]scraping javascript content using selenium
我正在嘗試使用selenium和geckodriver從網站上抓取javascript內容,但是我正在獲取任何數據。 以下是JavaScript代碼
<div _ngcontent-c2="" class="header-wrapper">
<div _ngcontent-c2="" class="title">Suda Office</div>
<div _ngcontent-c2="" class="update">Jul 05 11:07 AM</div>
</div>
<div _ngcontent-c2="">
<div _ngcontent-c2="" class="item-row title-headers">
<div _ngcontent-c2="" class="item-col head1">Route</div>
<div _ngcontent-c2="" class="item-col head2">Destination</div>
<div _ngcontent-c2="" class="item-col">
<div _ngcontent-c2="" class="head3 head3-height">ETA</div>
</div>
</div>
<div _ngcontent-c2="">
<div _ngcontent-c2="" class="alternet-color">
<div _ngcontent-c2="" class="item-row item-eta-row">
<div _ngcontent-c2="" class="item-col eta-route">15 T</div>
<div _ngcontent-c2="" class="item-col eta-destination">
<marquee _ngcontent-c2=""> Charbagh</marquee></div>
<div _ngcontent-c2="" class="item-col eta-col">
<div _ngcontent-c2="" class="eta-display-wrapper">
<div _ngcontent-c2="" class="display">
<span _ngcontent-c2="" class="space"></span>
<span _ngcontent-c2="" class="currentTiming">10 min</span>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
我必須從上述javascript內容中獲取class="item-col eta-route"
, class="item-col eta-destination"
和class="currentTiming"
數據。 我使用以下代碼,但輸出中未顯示任何內容
from selenium import webdriver
driver = webdriver.Firefox()
driver.get(url)
a = driver.find_elements_by_class_name("item-col eta-route")
但是輸出a=[]
。 甚至d = driver.find_elements_by_class_name("currentTiming")
給出以下輸出
[<selenium.webdriver.firefox.webelement.FirefoxWebElement (session="6b1f2344-8e8a-4f48-a29a-54610179d62f", element="38e7ce58-ea66-4461-bee7-f81ac414595b")>]
如何使用硒從頁面中獲得正確的輸出?
問題可能出在item-col eta-route
類名稱上。 HTML中可能有數百個類似的類。
您可以嘗試使用此CSS選擇器 :
div[_ngcontent-c2][class='item-col eta-route']
獲得15 T值。
引入webdriver wait將是提高腳本穩定性的好主意。
wait = WebDriverWait(driver, 10)
element = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, "div[_ngcontent-c2][class='item-col eta-route']")))
print(element.text)
提取價值:
marquee_text = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, "div[_ngcontent-c2][class='item-col eta-destination'] marquee")))
print(marquee_text.text)
您將需要導入這些:
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.