簡體   English   中英

抓取網站時缺少 HTML 元素。 Python

[英]Missing HTML Elements when scraping website. Python

我正在嘗試使用 bs4 和 Selenium 從網站中提取 HREF。 但是,當我使用 Beautiful Soup 解析 HTML 時,我正在尋找的元素丟失了。 當我稍后嘗試搜索它們時,我只會得到 NoneType 對象。 這是我想取出的:

這就是我要提取的內容

我正在使用以下代碼來快速解析:

my_url = browser.current_url
uClient = uReq(my_url) 
page_html = uClient.read()
uClient.close()
page_soup = soup(page_html, "html.parser")

但是當我運行時:

squeeps = page_soup.findAll("div",{'id':'pcisBody'})
squeeps[0]

這就是我得到的全部:

<div id="pcisBody">
<img alt="loading" height="40" src="/OnlineServices/Images/loading.gif" width="40"/>
<span id="pcisLoading">Retrieving Data...</span>
</div>

任何幫助將不勝感激!! 這是鏈接: https : //www.ladbsservices2.lacity.org/OnlineServices/PermitReport/PermitResults/444952

BeautifulSoup 不會在初始加載后捕獲網站的數據。 作為解決方法,您可以使用 selenium 並訪問該網站。 然后,等到特定分鍾​​或某個加載事件被觸發,然后獲取頁面源。 然后,將其傳遞給 BeautifulSoup。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM