如何僅從HTML表中提取文本並忽略標記？

Question

我有HTML表格的文檔。 有些單元格只有數字。 其他單元格有數字和單詞。

有沒有辦法只保留有單詞的單元格的內容，而不是只保留單元格的內容？

有沒有人知道我可以用來做這個的模塊？ 或者，無論如何我可以使用正則表達式嗎？

<table>
<tr>
<td>WORDS WORDS WORDS WORDS WORDS WORDS 123</td>
<td> 789</td>
</tr>
<tr>
<td> 123 </td>
<td>WORDS WORDS</td>
</tr>
</table>

我仍然是perl的新手，所以請原諒我的問題，如果它很簡單。 此外，我已經被警告過使用正則表達式解析HTML文本的潛在問題。

非常感謝！

最后，順便說一下，我將使用一個模塊來殺死所有的HTML代碼。

Answer 1

如您所述，不應使用正則表達式解析HTML。 像HTML::Parser這樣的專用解析模塊可以提供幫助：

#!/usr/bin/env perl

use strict;
use warnings;

use HTML::Parser;

my $p = HTML::Parser->new( 'text_h' => [ \&text_handler, 'dtext' ] );
$p->parse_file(\*DATA);

sub text_handler {
    my $text = shift;
    $text =~ s/^\s*|\s*$//g;         # Trim leading and trailing whitespaces
    return if !$text || $text =~ /^[\d\s]+$/;

    print "$text\n";
}

__DATA__
<table>
<tr>
<td>WORDS WORDS WORDS WORDS WORDS WORDS 123</td>
<td> 789 558 </td>
</tr>
<tr>
<td> 123 </td>
<td>WORDS WORDS</td>
</tr>
</table>

輸出：

WORDS WORDS WORDS WORDS WORDS WORDS 123
WORDS WORDS

Answer 2

有幾個模塊可以用來做這個，我自己去HTML::TreeBuilder::XPath 。

#!/usr/bin/env perl

use v5.12;
use HTML::TreeBuilder::XPath;

my $tree = HTML::TreeBuilder::XPath->new;
$tree->parse_file("data.html");

my @cells = $tree->findnodes('//td');
foreach my $cell (@cells) {
    if ($cell->as_text =~ /^[0-9 ]+$/) {
        $cell->delete_content;
    }
}
print $tree->as_HTML;

使用的XPath引擎應該支持XPath的擴展，允許使用正則表達式（這將允許我們在下面的循環中消除測試）。 我的XPath印章不能讓我現在可以使用它。

#my @cells = $tree->findnodes( '//td[text() =~ /^[0-9 ]$/')->[0];

如何僅從HTML表中提取文本並忽略標記？

問題描述

2 個解決方案

解決方案1
2 已采納 2012-08-17 06:16:36

解決方案2
2 2012-08-17 06:27:55

如何僅從HTML表中提取文本並忽略標記？

問題描述

2 個解決方案

解決方案1 2 已采納 2012-08-17 06:16:36

解決方案2 2 2012-08-17 06:27:55

解決方案1
2 已采納 2012-08-17 06:16:36

解決方案2
2 2012-08-17 06:27:55