繁体   English   中英

如何使用WWW :: Mechanize进行分页?

[英]How do I paginate using WWW::Mechanize?

我在64位计算机上使用Windows Perl 5.16.3。

当我通过以下网址使用Mechanize时

http://www.utsavfashion.in/indowestern

一切正常。

但是,当我尝试使用分页选项时

将最后一个字符串更改为indowestern#pg = 2

我无法获得第二页的内容。 我仍然从第一页获得内容。

请参见下面的代码段:

my $url = "http://www.utsavfashion.in/indowestern#pg=2";

$m = WWW::Mechanize->new();
$m->get($url);
print "$url\n";

my $c = $m->content;

print "$c\n";

预先感谢您的建议!

Web浏览器甚至不会将#pg=2发送到Web服务器。 我不知道WWW :: Mechanize是否可以,但是不可以。 因此,您获得相同的页面也就不足为奇了

http://www.utsavfashion.in/indowestern

和为

http://www.utsavfashion.in/indowestern#pg=2

区别不在于获取的内容 ,而在于渲染的内容

使用Web浏览器进行呈现时,页面中的JavaScript会检查锚点并相应地更新内容。

当您使用print $content呈现它时,它看起来完全不同。 您不会得到格式正确的文本或JavaScript的效果。

有一些选项可用于处理下载内容中的JavaScript。 但是,如果您正在进行数据挖掘,那么复制JavaScript可能会更高效,更可靠,因为如果在下载的文档中找不到数据,它大概只会执行另一个Web请求来获取数据。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM