繁体   English   中英

使用Selenium解析页面(部分由JavaScript生成)

[英]Parse a page (partly generated by JavaScript) by using Selenium

我遇到一个问题:我想解析一个页面(例如, 这个页面)以收集有关所提供应用程序的信息,并将这些信息保存到数据库中。

此外,我正在使用crawler4j来访问每个(可用)页面。 但是,正如我所看到的,问题是,rawler4j需要链接以跟随源代码。

但是在这种情况下,href是由一些JavaScript代码生成的,因此crawler4j不会获得新的访问链接/要爬网的页面。

因此,我的想法是使用Selenium,以便可以像在真正的浏览器(例如Chrome或Firefox)中一样检查多个Elements(我对此很陌生)。

但是,老实说,我不知道如何获取“生成的” HTML而不是源代码。

有谁能够帮助我?

要检查元素,您不需要Selenium IDE,只需使用具有Firebug扩展名的Firefox。 另外,使用开发人员工具附加,您可以查看页面的源代码以及生成的源代码(主要用于PHP)。

Crawler4J无法处理这样的javascript。 最好留给另一个更高级的爬网库。 在此查看此响应:

使用Java进行Web爬网(启用Ajax / JavaScript的页面)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM