繁体   English   中英

BeautifulSoup获取innerhtml数据

[英]BeautifulSoup get innerhtml data

我正在尝试从网站读取数据。 我可以看到所需的值,但该值不会出现在下载的html代码中(使用urllib2)。 该值是由某个js文件创建的,并作为该ID的innerhtml嵌入到网页中。 PS:如何提取? 与浏览器不同,原始源代码无法呈现js!

获取数据的另一种方法是让浏览器使用Selenium来完成所有工作并读取呈现的html。 有点慢,但肯定有效。

在这里,您可以找到将Selenium与Python结合使用的入门指南: http//jimmyg.org/blog/2009/getting-started-with-selenium-and-python.html

您有两个选择:让浏览器保存DOM(这包括脚本所做的所有更改)或使用JavaScript引擎执行嵌入式脚本。

对于后一种方法,请尝试使用基于Java的引擎,例如Rhino,并使用env.js模拟浏览器。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM