[英]Using RegEx in Python finding words beginning with h, but not including html tags
我正在尝试查找所有以h开头的单词,但是我需要排除html标签,例如在此搜索中。 我有找到所有以h开头的单词的代码:
\h\w+
我只是不知道如何在搜索中排除某些东西,特别是html标签。
使用排除字符[^]
[^<]h\w+
但我认为这种方式可能会更好地满足您的需求,因为它会为以h开头的每个单词生成一个匹配项,而不是a
(?!<)h\w+
更好的是,进行以下匹配:
((?!<)h\w+)
(请注意,第一个(
)之前有一个空格。
如果文本是:
html teste homem carro agharro hzete h
它将与“ homem”和“ hzete”进行完全匹配,这是您想要的单词的第一个匹配组。 “ homem”,“ hzete”。
我向您推荐一个图形化的正则表达式验证工具,以便您实时查看所编写的表达式。 一个不错的是https://regex101.com/
希望这可以帮助。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.