繁体 English 中英

使用Selenium解析页面（部分由JavaScript生成）

[英]Parse a page (partly generated by JavaScript) by using Selenium

原文 2014-08-28 12:37:25 3 1 java/ javascript/ selenium/ web-scraping/ crawler4j

我遇到一个问题：我想解析一个页面（例如，这个页面）以收集有关所提供应用程序的信息，并将这些信息保存到数据库中。

此外，我正在使用crawler4j来访问每个（可用）页面。 但是，正如我所看到的，问题是，rawler4j需要链接以跟随源代码。

但是在这种情况下，href是由一些JavaScript代码生成的，因此crawler4j不会获得新的访问链接/要爬网的页面。

因此，我的想法是使用Selenium，以便可以像在真正的浏览器（例如Chrome或Firefox）中一样检查多个Elements（我对此很陌生）。

但是，老实说，我不知道如何获取“生成的” HTML而不是源代码。

有谁能够帮助我？

1 个解决方案

要检查元素，您不需要Selenium IDE，只需使用具有Firebug扩展名的Firefox。 另外，使用开发人员工具附加，您可以查看页面的源代码以及生成的源代码（主要用于PHP）。

Crawler4J无法处理这样的javascript。 最好留给另一个更高级的爬网库。 在此查看此响应：

使用Java进行Web爬网（启用Ajax / JavaScript的页面）

使用Selenium将HTML javascript解析为JAVA

[英]parse HTML javascript to JAVA using selenium

单击硒中的javascript生成的链接

[英]Clicking a javascript generated link in selenium

解析在 Selenium 中执行的 javascript 的响应

[英]Parse response of javascript that was executed in Selenium

Selenium-页面使用量角器javascript代码等待Angular

[英]Selenium - Page Wait for Angular using Protractor javascript code

如何在 Selenium 中使用 JavaScript 等待页面完全加载

[英]How to wait for page to load completely using JavaScript in Selenium

在Java中使用Selenium单击Javascript生成的字段

[英]Use Selenium in Java to click on field generated by Javascript

硒-单击由javascript生成的单选按钮

[英]selenium - clicking on radio button generated by javascript

读取网站上生成的XML文件并使用硒进行解析

[英]Read a XML file which is generated on a website and parse it with selenium

使用硒声明页面

[英]Asserting a Page Using selenium

使用Selenium测试Javascript

[英]Testing Javascript Using Selenium

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用Selenium将HTML javascript解析为JAVA 单击硒中的javascript生成的链接解析在 Selenium 中执行的 javascript 的响应 Selenium-页面使用量角器javascript代码等待Angular 如何在 Selenium 中使用 JavaScript 等待页面完全加载在Java中使用Selenium单击Javascript生成的字段硒-单击由javascript生成的单选按钮读取网站上生成的XML文件并使用硒进行解析使用硒声明页面使用Selenium测试Javascript

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM