繁体   English   中英

不成熟的组捕获PHP正则表达式

[英]Premature group capturing PHP regex

我将HTML存储在MySQL数据库中,该数据库正从Joomla迁移到新的WordPress安装中。 我需要删除每页底部的一些标题文本。

HTML的示例:

<a href="some/link">link 1</a><p>some really long description</p><a href="another/link">link 2</a>CAPTION TEXT HERE[/caption]

我正在使用PHP脚本查询数据库并进行正则表达式匹配。

到目前为止,我的正则表达式:

/(<\/a>)(.*?)(\[\/caption\])/

我需要完全删除第二个字幕组(CAPTION TEXT HERE),因此从本质上讲,将组1,2和3替换为组1和3。组2可以包含任何字母数字或特殊字符。

我遇到的问题是捕获组1与链接1的结束锚标记匹配,并一直持续到[/caption]

发生的是:

</a><p>some really long description</p><a href="another/link">link 2</a>CAPTION TEXT HERE[/caption]

被替换为:

<a href="some/link">link 1</a>[/caption]

当我真正需要的是:

<a href="some/link">link 1</a><p>some really long description</p><a href="another/link">link 2</a>[/caption]

先感谢您!

在匹配的文本中不包含>

(<\/a>)([^>]*?)(\[\/caption\])

演示

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM