[英]How can I check whether a website has javascript or not?
我正在使用beautifulsoup構建一個webscraper。一些網站具有javascript內容,並且未使用urllib3加載,因此我對它們使用硒。但是selenium需要太長的響應時間,我需要構建一個更高效的webscraper,因為我需要使用相同的多個網站的通用抓取工具。 因此,我在考慮是否可以通過某種方式找出網站是否僅包含js內容,然后不適當地使用硒,否則我將使用更快的urllib
from selenium import webdriver
from bs4 import BeautifulSoup
import time
browser = webdriver.Chrome()
strt=time.time()
y=browser.get("https://www.amazon.jobs/en/locations/bangalore-india")
#time.sleep(10)
html = browser.page_source
soup = BeautifulSoup(html,'lxml')
li=soup.find_all('ul')
print(li)
print('load time='+str(time.time()-strt))
這是使用硒的簡單檢查
jsSize = (len(driver.find_elements_by_xpath("/html/head/script")))
if jsSize>0:
print("Page contains javascript")
script標簽用於定義客戶端腳本(JavaScript)。
元素要么包含腳本語句,要么通過src屬性指向外部腳本文件。
右鍵單擊要抓取的網頁>>轉到查看頁面源>>
查找名為script的標記,script標記將指示您要抓取的網頁也包含JavaScript。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.