如何使用HTML :: Parser提取標簽之間的文本？

Question

我需要從網頁上解析一些數據。 如何使用HTML :: Parser提取標簽之間的文本？

考慮以下示例代碼：

#!/usr/bin/perl

use strict;
use warnings;

use HTML::Parser;
use Data::Dumper;

my $find_title = HTML::Parser->new(
    api_version => 3,
    start_h => [ 
        sub {
             my ($tag, $attr) = @_;
             print Dumper \@_;
            }, 
        'tag'
               ],
  );

my $html = join '',
    "<html><head><title>Extract me!</title></head><body>",
    (map { qq(<a href="http://$_.com">$_</a>) } qw/foo bar baz/),
    "</body></html>";

$find_title->report_tags('title');
$find_title->parse($html);

如何解決此問題，以便提取標題？ 這僅提取標簽。

Answer 1

你需要一個text_h處理程序來收集文字和end_h處理程序時做一些事情</title>出現標簽（此時，在標簽內的文本已經被收集）。

HTML :: Parser是一個相當底層的模塊，您可能更高興使用基於它構建的眾多模塊之一，例如HTML :: TreeBuilder或HTML :: TokeParser 。

例如， HTML :: HeadParser使提取標題變得簡單：

use strict;
use warnings;

use HTML::HeadParser;

my $html = join '',
    "<html><head><title>Extract me!</title></head><body>",
    (map { qq(<a href="http://$_.com">$_</a>) } qw/foo bar baz/),
    "</body></html>";

my $p = HTML::HeadParser->new;
$p->parse($html);

my $title = $p->header('Title');

如何使用HTML :: Parser提取標簽之間的文本？

問題描述

1 個解決方案

解決方案1
1 已采納 2010-12-27 07:55:26

如何使用HTML :: Parser提取標簽之間的文本？

問題描述

1 個解決方案

解決方案1 1 已采納 2010-12-27 07:55:26

解決方案1
1 已采納 2010-12-27 07:55:26