如何使用Perl提取HTML表数据？

Question

我需要从网页中检索一些数据。 在分析了页面的HTML代码之后，我发现我需要的数据嵌入到具有唯一表id的表中。 我不知道它是否是一个HTML规则，无论如何它对解析我认为非常好。

表格中的数据排列如下（省略了各种属性和标签，以便为您提供清晰的“数据结构”）

<table .... id = "tablename" .... >
    <tr>
         <td .... >filed1</td>
             ....
         <td .... >filedn</td>
    </tr>
         #several "trs" here
    <tr>
         <td .... >filed1</td>
             ....
         <td .... >filedn</td>
    </tr>
</table>

所以我的问题是如何在这种情况下使用Perl的HTML解析器实用程序来满足我的需求。

提前致谢。

Answer 1

HTML :: TableExtract听起来与您正在寻找的完全一样。

Answer 2

使用HTML :: Table 。

Answer 3

在Perl期刊中查看Ken MacFarlane 使用HTML :: Parser解析HTML 。 我不确定这是否是你所指的解析器，但看起来它可以做你想要的，或者至少指出你正确的方向。

Answer 4

你可以尝试这样的事情：

my $html = '<html code....';

$html =~ s/^.*(<table id="tablename">.*<\/table>).*/$1/s;

如何使用Perl提取HTML表数据？

问题描述

4 个解决方案

解决方案1
12 已采纳 2009-12-21 07:33:19

解决方案2
2 2009-12-21 11:30:16

解决方案3
-1 2009-12-21 05:55:00

解决方案4
-4 2009-12-21 06:32:39

如何使用Perl提取HTML表数据？

问题描述

4 个解决方案

解决方案1 12 已采纳 2009-12-21 07:33:19

解决方案2 2 2009-12-21 11:30:16

解决方案3 -1 2009-12-21 05:55:00

解决方案4 -4 2009-12-21 06:32:39

解决方案1
12 已采纳 2009-12-21 07:33:19

解决方案2
2 2009-12-21 11:30:16

解决方案3
-1 2009-12-21 05:55:00

解决方案4
-4 2009-12-21 06:32:39