繁体   English   中英

Chrome / Firefox网络浏览器自动化功能,用于收集数据

[英]Chrome/Firefox web browser automation for collect data

我想在网站上自动浏览以收集一些数据。

有一个带有表单的页面。 该表单包含一个选择和一个提交按钮。 选择选择中的一个选项并单击提交按钮,将转到另一页,其中有一些包含相关数据的表。

我需要收集每个选项的数据并将其保存在文件中。 可能我需要回到第一页才能为每个选项重复执行该任务。 详细信息是我之前不知道确切的选项数量。

我的想法是最好使用Firefox或Chrome来完成该任务。 我认为唯一的方法就是通过编程。

有人可以告诉我一种简便快捷的方法来完成该任务。 我对Java,Javascript和Python有所了解。

您可能想使用Google的Selenium之类的“网络浏览器自动化”工具。 尽管不完全适合此目的,但我认为它可以用于实现您的要求。

由于任务相对受限,因此我将避免使用Selenium(这有点脆弱),而是尝试以下方法:

  • 从第一页获取选项的完整列表,并将其记录在文本文件中
  • 使用Fiddler等网络监视工具捕获提交第一页时发送的流量。 查看确切地提交给服务器的内容以及操作方式(POST与GET,参数编码等)。
  • 使用curl之类的工具以您在步骤2中捕获的确切格式重放请求步骤。然后编写一个批处理脚本(使用bash或python)以遍历步骤1中文本文件中的所有值以对所有文件进行curl下拉列表中的值。 将curl输出保存到文件。

我找到了解决问题的方法。 它称为HtmlUnit:

http://htmlunit.sourceforge.net/gettingStarted.html

HtmlUnit是“用于Java程序的无GUI浏览器”。

它允许使用Java进行Web浏览和数据收集,并且非常简单易用。

并不是我问的那样,但是更好。 至少对我来说。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM