[英]Regular Expression for splitting on slash
我试图拆分URL以获取域名。
example.com => example.com
example.com/dir/index.html => example.com
我试图给我们的正则表达式是
(.+?)(/|$)
当我在python中使用它时,如下所示:
import re
m = re.search('(.+?)(/|$)', url)
它适用于第一个,但对于第二个例子,我总是得到example.com/
。 我如何摆脱反斜杠?
编辑:我很抱歉,我忘了提供一个重要信息。 我需要一个正则表达式,因为我需要在Oracle SQL中编写它。 幸运的是,Oracle支持正则表达式,但没有像urlparse
。 我只是使用python进行测试。 对于那个很抱歉!
这样做的简单方法是在stdlib中使用urlparse
函数:
>>> from urllib.parse import urlparse
>>> url = 'http://example.com/dir/index.html'
>>> p = urlparse(url)
>>> p.netloc
'example.com'
除了简单得多之外,它还处理你没有想到的明确定义和明确记录的案例(例如,如果有端口和主机?),而对于你的代码,谁知道你没有预料到的任何情况会发生什么?
如果您确实希望将URL视为字符串而不是URL,则在斜杠上拆分的简单方法是在斜杠上拆分:
>>> bits = url.split('/')
>>> bits[2]
example.com
如果你真的想使用正则re.split
来分割斜杠,你可以使用re.split
而不是试图找出一种方法来欺骗re.search
为你分裂:
>>> bits = re.split('/', url)
>>> bits[2]
example.com
最后,如果你想用match
或search
来做,并且你不想捕获/
,不要把/
放在一个捕获组中,并查看你想要捕获的组,而不是在整个字符串:
>>> url = 'example.com/dir/index.html'
>>> m = re.search('(.+?)(/|$)', url)
>>> m.groups()
('example.com', '/')
>>> m = re.search('(.+?)(?:/|$)', url)
>>> m.groups()
('example.com',)
尝试匹配非froward斜杠,如([^/]+?)(/|$)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.