python中页面源代码的结果与网站页面源代码不同

Question

我正在使用 selenium 来从这个网站获取公司地址和公司创建日期的数据： https : //www.societe.com/ 。 首先，我需要使用公司的 SIREN 号码进行搜索，网站将定向到公司简介，我将在其中抓取我需要的信息。 但是Beautifulsoup()返回的页面源代码与我直接在网站上查看的源代码不一样。 当我使用find_all函数定位到我可以从中提取信息的部分时，即使源代码中有这样的部分，它也会返回None 。 谁能告诉我为什么我会得到这种不同的源代码以及如何处理它以获得我需要的信息？

driver = webdriver.Chrome(executable_path = '/Webscraping/chromedriver')
url = 'https://www.societe.com/'
driver.get(url)
driver.find_element(By.XPATH,'//*[@id="input_search"]').send_keys(839206059)
driver.find_element(By.XPATH,'//*[@id="buttsearch"]/i').click()
page_source = BeautifulSoup(driver.page_source)
print(page_source)

我得到的源代码结果

Answer 1

您附加的图像使用的是硒网络驱动程序，而不是 BS4。 对于 BS4，此链接可能对您有所帮助。

python中页面源代码的结果与网站页面源代码不同

问题描述

1 个解决方案

解决方案1
0 2021-10-22 18:59:42

python中页面源代码的结果与网站页面源代码不同

问题描述

1 个解决方案

解决方案1 0 2021-10-22 18:59:42

解决方案1
0 2021-10-22 18:59:42