[英]Why can't LWP::UserAgent get this site entirely?
它从一开始只输出几行。
#!/usr/bin/perl
use strict;
use warnings;
use LWP::UserAgent;
my $ua = LWP::UserAgent->new;
my $response = $ua->get('http://www.eurogamer.net/articles/df-hardware-wii-u-graphics-power-finally-revealed');
print $response->decoded_content;
我运行了以下修改:
my $response = $ua->get( 'http://www.eurogamer.net/articles/df-hardware-wii-u-graphics-power-finally-revealed' );
say $response->headers->as_string;
看到了这个:
Cache-Control: max-age=60s
Connection: close
Date: Wed, 06 Feb 2013 23:51:15 GMT
Via: 1.1 varnish
Age: 0
Server: Apache
Vary: Accept-Encoding
Content-Length: 50519
Content-Type: text/html; charset=ISO-8859-1
Client-Aborted: die
Client-Date: Wed, 06 Feb 2013 23:50:50 GMT
Client-Peer: 94.198.83.18:80
Client-Response-Num: 1
X-Died: Illegal field name 'X-Meta-Twitter:card' at .../HTML/HeadParser.pm line 207.
X-Varnish: 630361704
它似乎不喜欢第27行的<meta name="twitter:card" content="summary" />
标签。它说它已经死了。
它似乎将具有name
属性的任何meta
标记转换为"X-Meta-\\u$attr->{name}"
“标题”。 然后,它尝试将content
属性的值存储为X-meta“header”值。 像这样(从第194行开始):
if ($tag eq 'meta') {
my $key = $attr->{'http-equiv'};
if (!defined($key) || !length($key)) {
if ($attr->{name}) {
$key = "X-Meta-\u$attr->{name}"; # <-- Here's the little trick
} elsif ($attr->{charset}) { # HTML 5 <meta charset="...">
$key = "X-Meta-Charset";
$self->{header}->push_header($key => $attr->{charset});
return;
} else {
return;
}
}
$self->{'header'}->push_header($key => $attr->{content});
}
我将此模块的修改后的副本推送到PERL5LIB目录中。 我将push_header
步骤包装在eval
块中并完全下载页面。
我有完全相同的问题......
我修复了它,禁用了启用HTML :: HeadParser的选项'parse_head'。
$self->{ua}->parse_head(0);
我知道禁用此功能不是一个好主意,但我更喜欢可用性而不是正确的解码文档。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.