为什么非贪婪的Python正则表达式不够贪婪？

Question

我在一组字符串URL上实现了非贪婪的正则表达式，在这里我试图清理它们，以使它们在.com（.co.uk等）之后结束。 其中一些在所需的截断值后继续以'或"或<继续，因此我使用x = re.findall('([A-Za-z0-9]+@\\S+.co\\S*?)[\\'"<]', finalSoup2) 。

问题是某些URL是misc@misc.misc'misc''misc'（或与<>相似），因此在实现非贪婪的正则表达式后，我仍然留下了enquiries@smart-traffic.com.au">enquiries@smart-traffic.com.au例如， enquiries@smart-traffic.com.au">enquiries@smart-traffic.com.au 。

我试过两个?? 在一起，但显然不能正常工作，那么在这种情况下，它们能达到干净URL的正确方法是什么？

Answer 1

正则表达式的问题在于，您当前仅在查找非空格（句号）co，而不是在查找非空格（句号）非空格。

因此，在这种情况下，您可以根据上述信息使用以下正则表达式。

>>> finalSoup2 = """
... misc@misc.misc'misc''misc
... enquiries@smart-traffic.com.au">enquiries@smart-traffic.com.au
... google.com
... google.co.uk"'<>Stuff
... """
>>>x = re.findall('([A-Za-z0-9]+@[^\'"<>]+)[\'"<]', finalSoup2)
>>>x
['misc@misc.misc',
 'enquiries@smart-traffic.com.au',
 'enquiries@smart-traffic.com.au\ngoogle.com\ngoogle.co.uk']

然后，您可以使用它来获取所需的url，但必须确保将它们分割在r'\\n'因为它们在文本中可能包含换行符，如上所示。

为什么非贪婪的Python正则表达式不够贪婪？

问题描述

1 个解决方案

解决方案1
2 已采纳 2016-07-01 14:46:08

为什么非贪婪的Python正则表达式不够贪婪？

问题描述

1 个解决方案

解决方案1 2 已采纳 2016-07-01 14:46:08

解决方案1
2 已采纳 2016-07-01 14:46:08