[英]Missing HTML Elements when scraping website. Python
我正在尝试使用 bs4 和 Selenium 从网站中提取 HREF。 但是,当我使用 Beautiful Soup 解析 HTML 时,我正在寻找的元素丢失了。 当我稍后尝试搜索它们时,我只会得到 NoneType 对象。 这是我想取出的:
我正在使用以下代码来快速解析:
my_url = browser.current_url
uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()
page_soup = soup(page_html, "html.parser")
但是当我运行时:
squeeps = page_soup.findAll("div",{'id':'pcisBody'})
squeeps[0]
这就是我得到的全部:
<div id="pcisBody">
<img alt="loading" height="40" src="/OnlineServices/Images/loading.gif" width="40"/>
<span id="pcisLoading">Retrieving Data...</span>
</div>
任何帮助将不胜感激!! 这是链接: https : //www.ladbsservices2.lacity.org/OnlineServices/PermitReport/PermitResults/444952
BeautifulSoup 不会在初始加载后捕获网站的数据。 作为解决方法,您可以使用 selenium 并访问该网站。 然后,等到特定分钟或某个加载事件被触发,然后获取页面源。 然后,将其传递给 BeautifulSoup。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.