[英]PHP RegEx Grouping Multiple Matches
我只是试着制作我的第一个正则表达式。 我希望能够匹配一个伪HTML元素并提取有用的信息,如标签名称,属性等:
$string = '<testtag alpha="value" beta="xyz" gamma="abc" >';
if (preg_match('/<(\w+?)(\s\w+?\s*=\s*".*?")+\s*>/', $string, $matches)) {
print_r($matches);
}
除了,我得到:
Array ( [0] => [1] => testtag [2] => gamma="abc" )
任何人都知道如何获得其他属性? 我错过了什么?
试试这个正则表达式:
/<(\w+)((?:\s+\w+\s*=\s*(?:"[^"]*"|'[^']*'|[^'">\s]*))*)\s*>/
但是你真的不应该使用正则表达式来处理像HTML这样的无上下文语言。 请改用真正的解析器。
如前所述, 不要使用RegEx来解析HTML文档 。
请尝试使用此PHP解析器: http : //simplehtmldom.sourceforge.net/
您的第二个捕获组一次匹配一个属性,每次都覆盖前一个属性。 如果您使用的是.NET正则表达式,则可以使用Captures数组来检索单个捕获,但我不知道具有该功能的任何其他正则表达式。 通常你必须做一些事情,比如捕获一个组中的所有属性,然后在捕获的文本上使用另一个正则表达式来打破各个属性。
这就是为什么人们倾向于喜欢正则表达式或讨厌它们(或两者兼而有之)。 你可以用它们做一些真正令人惊奇的事情,但是你也会继续遇到这样一个简单的任务,如果不是不可能的话,这些任务非常困难。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.