[英]Parse a page (partly generated by JavaScript) by using Selenium
我遇到一个问题:我想解析一个页面(例如, 这个页面)以收集有关所提供应用程序的信息,并将这些信息保存到数据库中。
此外,我正在使用crawler4j来访问每个(可用)页面。 但是,正如我所看到的,问题是,rawler4j需要链接以跟随源代码。
但是在这种情况下,href是由一些JavaScript代码生成的,因此crawler4j不会获得新的访问链接/要爬网的页面。
因此,我的想法是使用Selenium,以便可以像在真正的浏览器(例如Chrome或Firefox)中一样检查多个Elements(我对此很陌生)。
但是,老实说,我不知道如何获取“生成的” HTML而不是源代码。
有谁能够帮助我?
要检查元素,您不需要Selenium IDE,只需使用具有Firebug扩展名的Firefox。 另外,使用开发人员工具附加,您可以查看页面的源代码以及生成的源代码(主要用于PHP)。
Crawler4J无法处理这样的javascript。 最好留给另一个更高级的爬网库。 在此查看此响应:
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.