如何使用WWW :: Mechanize :: Firefox从文档中获取HTML表

Question

我不明白如何从文档访问HTML表。

我正在使用此链接： Scotia Bank Jobs

想法是多次单击“下一页”按钮，并将所有小的HTML表收集到一个表中。

当我使用WWW::Mechanize::Firefox打开链接时，我可以使用以下命令获取整个文档（以及首页HTML表）

 my $cont= $mech->content( format => 'html' );

之后，我单击“下一步”按钮

my $id="search_result_next_page_link"; 
$mech->click({ xpath => qq{//*[\@id="$id"]}, synchronize => 0 });

我可以多次单击该按钮，并且表在文档内部被更改，但是我不能再使用$mech->content了，因为URL相同并且内容没有更改。

我正在尝试类似的东西：

my $tt= $mech->xpath('/html/body/form/div[4]/div/main/div/div[3]/section/div/div/table/text()');
print $tt;

但它显示“ 0”。

我感觉自己很亲密，知道每次单击后如何获取HTML表吗？？？？

Answer 1

最后....我不得不打扰WWW::Mechanize::Firefox模块的作者，他为解决方案提供了如何获取此表的HTML代码的方法。 脚本应该是这样的：

@tt= $mech->selector('.tableSearchResults'); $HTMLtable= $tt[0]->{innerHTML};

别忘了，您需要在每次单击后等待（或创建一个循环，等待元素显示）。