[英]The result of page source code in python is different to website page source code
我正在使用 selenium 来从这个网站获取公司地址和公司创建日期的数据: https : //www.societe.com/ 。 首先,我需要使用公司的 SIREN 号码进行搜索,网站将定向到公司简介,我将在其中抓取我需要的信息。 但是Beautifulsoup()
返回的页面源代码与我直接在网站上查看的源代码不一样。 当我使用find_all
函数定位到我可以从中提取信息的部分时,即使源代码中有这样的部分,它也会返回None
。 谁能告诉我为什么我会得到这种不同的源代码以及如何处理它以获得我需要的信息?
driver = webdriver.Chrome(executable_path = '/Webscraping/chromedriver')
url = 'https://www.societe.com/'
driver.get(url)
driver.find_element(By.XPATH,'//*[@id="input_search"]').send_keys(839206059)
driver.find_element(By.XPATH,'//*[@id="buttsearch"]/i').click()
page_source = BeautifulSoup(driver.page_source)
print(page_source)
您附加的图像使用的是硒网络驱动程序,而不是 BS4。 对于 BS4,此链接可能对您有所帮助。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.