正则表达式-从PHP中的html字符串获取表

Question

我尝试使用特殊的div容器将所有表包装在内容中，以使其可用于移动设备。 在将表保存到自定义CSS的数据库中之前，我无法对其进行包装。 在将内容打印在页面上之前，我设法找到了内容，并且需要preg_replace所有表。

我这样做是为了获取所有表：

preg_match_all('/(<table[^>]*>(?:.|\n)*<\/table>)/', $aFile['sContent'], $aMatches);

问题是要获取内部部分(?:.|\\n)*以匹配标签内部的所有内容，而不匹配结尾标签。 现在，表达式匹配所有内容，甚至是表的结束标记...

有没有一种方法可以排除结尾标记的匹配项？

Answer 1

您需要执行非贪婪匹配：/(< /(<table[^>]*>(?:.|\\n)*?<\\/table>)/ ?:.| /(<table[^>]*>(?:.|\\n)*?<\\/table>)/ 。 注意问号： ? 。

但是，我将为此使用DOM解析器：

$doc = new DOMDocument();
$doc->loadHTML($html);

$tables = $doc->getElementsByTagName('table');
foreach($tables as $table) {
    $content = $doc->saveHTML($table); 
}

尽管使用DOM解析器从HTML文档中提取数据已经更加方便了，但是如果您试图修改HTML（如您所述），则绝对是更好的解决方案。

Answer 2

如果您不想匹配结束标签，可以使用超前模式，

preg_match_all('/(<table[^>]*>(?:.|\n)*(?=<\/table>))/', $aFile['sContent'], $aMatches);

正则表达式-从PHP中的html字符串获取表

问题描述

2 个解决方案

解决方案1
6 已采纳 2014-07-31 08:15:17

解决方案2
0 2014-07-31 08:14:49

正则表达式-从PHP中的html字符串获取表

问题描述

2 个解决方案

解决方案1 6 已采纳 2014-07-31 08:15:17

解决方案2 0 2014-07-31 08:14:49

解决方案1
6 已采纳 2014-07-31 08:15:17

解决方案2
0 2014-07-31 08:14:49