繁体   English   中英

刮擦动态表单WWW :: Mechanize Perl

[英]Scraping dynamic forms WWW::Mechanize Perl

我正在尝试使用WWW :: Mechanize模块从页面上抓取表单及其字段。

由于网页的主体是使用document.write JS调用创建的,因此该模块中的form方法未找到我要查找的表单,并且对content方法的调用返回了页面源。 我需要从document.write调用访问生成的HTML。

使用机械化模块是否可行?如果可以,我将如何进行呢? 如果没有,还有其他Perl模块对我有帮助吗? 谢谢!

我知道您支持Perl解决方案,但您可以考虑使用Ruby。 我在Perl和Ruby中都完成了多个Web抓取脚本。 我发现Ruby比Perl做得更好。

由于您在Linux上运行,因此Ruby应该已经安装或应该是简单的安装(假设允许您在服务器上进行安装)。

您可以将以下threeruby宝石用于自动化:

require 'watir-webdriver'
require 'selenium-webdriver'
require 'headless'

这些在网页抓取方面做得非常好。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM