簡體   English   中英

刮擦動態表單WWW :: Mechanize Perl

[英]Scraping dynamic forms WWW::Mechanize Perl

我正在嘗試使用WWW :: Mechanize模塊從頁面上抓取表單及其字段。

由於網頁的主體是使用document.write JS調用創建的,因此該模塊中的form方法未找到我要查找的表單,並且對content方法的調用返回了頁面源。 我需要從document.write調用訪問生成的HTML。

使用機械化模塊是否可行?如果可以,我將如何進行呢? 如果沒有,還有其他Perl模塊對我有幫助嗎? 謝謝!

我知道您支持Perl解決方案,但您可以考慮使用Ruby。 我在Perl和Ruby中都完成了多個Web抓取腳本。 我發現Ruby比Perl做得更好。

由於您在Linux上運行,因此Ruby應該已經安裝或應該是簡單的安裝(假設允許您在服務器上進行安裝)。

您可以將以下threeruby寶石用於自動化:

require 'watir-webdriver'
require 'selenium-webdriver'
require 'headless'

這些在網頁抓取方面做得非常好。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM