在PHP中从HTML提取数据的最简单方法是什么？

Question

我正在处理大部分无效HTML的一小部分，并且需要提取一小部分数据。 考虑到大多数“标记”都是无效的，因此我认为将所有内容都加载到DOM中并不是一个好选择。 而且，对于这种简单情况，似乎有很多开销。

这是我拥有的标记的示例：

(a bunch of invalid markup here with unclosed tags, etc.)
<TD><span>Something (random text here)</span></TD>
(a bunch more invalid markup here with more unclosed tags.)

<TD><span>Something (random text here)</span></TD>部分不会在文档中的任何位置重复其本身，因此我相信使用简单的正则表达式即可解决问题。

但是，我对正则表达式感到恐惧。

我应该使用正则表达式吗？ 有没有更简单的方法可以做到这一点？ 如果可能的话，我只想提取Something之后的文本（此处为随机文本）。

提前致谢！

编辑-

HTML的确切示例（我已经省略了之前的内容，这是供应商使用的无效标记。我认为，该示例与该示例无关）：

<div class="FormTable">
        <TABLE>
        <TR>
                <TD colspan="2">In order to proceed with login operation please 
                answer on the security question below</TD>
        </TR>
        <TR>
                <TD colspan="2">&nbsp;</TD>
        </TR>
        <TR>
                <TD><label class="FormLabel">Security Question</label></TD>
                <TD><span>What is your city of birth?</span></TD>
        </TR>
        <TR>
                <TD><label class="FormLabel">Answer</label></TD>
                <TD><INPUT name="securityAnswer" class="input" type="password" value=""></TD>
        </TR>
        </TABLE>
</div>

Answer 1

如果您确定打开和关闭span标签在同一行上。 。。

$ cat test.php
<?php
  $subject = "(a bunch of invalid markup here with unclosed tags, etc.)
              <TD><span>Something (random text here)</span></TD>
              (a bunch more invalid markup here with more unclosed tags.)";

  $pattern = '/<span>.*<\/span>/';

  preg_match($pattern, $subject, $matches);
  print_r($matches);

?>


$ php -f test.php
Array
(
    [0] => <span>Something (random text here)</span>
)

如果您不确定span标记在同一行上，则可以将html视为文本文件，并将grep用作span标记。

$ grep '[</]span>' yourfile.html

Answer 2

您可能会通读此答案以及它引用的其他两个答案。 实际上，一次使用无效的 HTML代码比使用完整的解析器更容易让运气好一点。

Answer 3

在您的情况下，使用DOM分析器并不是最佳选择。 我坚信您需要SAX解析器，它仅提取文档的一部分并将适当的事件发送给处理程序。 此方法可以轻松解析损坏的文档。

范例： http : //pear.php.net/package/XML_HTMLSax3 http://www.php.net/manual/en/example.xml-structure.php

Answer 4

尝试使用DOMDOcument::loadHTML()方法，该方法应该消除与HTML相关的任何验证错误。

在PHP中从HTML提取数据的最简单方法是什么？

问题描述

4 个解决方案

解决方案1
2 已采纳 2011-02-08 15:09:31

解决方案2
1 2011-02-08 15:02:50

解决方案3
1 2011-02-08 17:38:32

解决方案4
0 2011-02-08 15:05:22

在PHP中从HTML提取数据的最简单方法是什么？

问题描述

4 个解决方案

解决方案1 2 已采纳 2011-02-08 15:09:31

解决方案2 1 2011-02-08 15:02:50

解决方案3 1 2011-02-08 17:38:32

解决方案4 0 2011-02-08 15:05:22

解决方案1
2 已采纳 2011-02-08 15:09:31

解决方案2
1 2011-02-08 15:02:50

解决方案3
1 2011-02-08 17:38:32

解决方案4
0 2011-02-08 15:05:22