抓取網站時缺少 HTML 元素。 Python

Question

我正在嘗試使用 bs4 和 Selenium 從網站中提取 HREF。 但是，當我使用 Beautiful Soup 解析 HTML 時，我正在尋找的元素丟失了。 當我稍后嘗試搜索它們時，我只會得到 NoneType 對象。 這是我想取出的：

我正在使用以下代碼來快速解析：

my_url = browser.current_url
uClient = uReq(my_url) 
page_html = uClient.read()
uClient.close()
page_soup = soup(page_html, "html.parser")

但是當我運行時：

squeeps = page_soup.findAll("div",{'id':'pcisBody'})
squeeps[0]

這就是我得到的全部：

<div id="pcisBody">
<img alt="loading" height="40" src="/OnlineServices/Images/loading.gif" width="40"/>
<span id="pcisLoading">Retrieving Data...</span>
</div>

任何幫助將不勝感激！！ 這是鏈接： https : //www.ladbsservices2.lacity.org/OnlineServices/PermitReport/PermitResults/444952

Answer 1

BeautifulSoup 不會在初始加載后捕獲網站的數據。 作為解決方法，您可以使用 selenium 並訪問該網站。 然后，等到特定分鍾或某個加載事件被觸發，然后獲取頁面源。 然后，將其傳遞給 BeautifulSoup。

抓取網站時缺少 HTML 元素。 Python

問題描述

1 個解決方案

解決方案1
0 已采納 2020-11-16 05:04:44

抓取網站時缺少 HTML 元素。 Python

問題描述

1 個解決方案

解決方案1 0 已采納 2020-11-16 05:04:44

解決方案1
0 已采納 2020-11-16 05:04:44