如何使用Python正则表达式从字符串中提取多个模式？

Question

https://epolicy.companyname.co.in/PRODUCTNAME/UI/PremiumCalculation.aspx?utm_source=rtb&utm_medium=display&utm_campaign=dbmew-Category-pros&dclid=CO2g3u7Gy98CFUOgaAodUv4E0w

我有数百万个此类URL，我想从中提取两件事。

PRODUCTNAME：始终以https://epolicy.companyname.co.in开头
* .aspx：已访问页面

我尝试了以下正则表达式

re.findall('([a-zA-Z]+\\.aspx | https://epolicy\\.companyname\\.co\\.in/(.*?)/UI)', URL)

及其一些变体。 但这没有用。 这样做的正确方法是什么？

Answer 1

尝试这个！

代码：

import re
url = "https://epolicy.companyname.co.in/PRODUCTNAME/UI/PremiumCalculation.aspx?utm_source=rtb&utm_medium=display&utm_campaign=dbmew-Category-pros&dclid=CO2g3u7Gy98CFUOgaAodUv4E0w"
print(re.findall('https://[^/]*/(.*)/UI/(.*).aspx', url))

输出：

[('PRODUCTNAME', 'PremiumCalculation')]

Answer 2

正则表达式似乎根本不是在这里使用的正确方法。 而是解析URL，分割路径，并获取第一个和最后一个元素。

from urllib.parse import urlparse
from pathlib import PurePath

components = urlparse(url)
path = PurePath(url.path)
product_name = path.parts[1]
page = path.stem

如何使用Python正则表达式从字符串中提取多个模式？

问题描述

2 个解决方案

解决方案1
0 2019-03-14 10:04:03

解决方案2
-1 2019-03-14 10:00:04

如何使用Python正则表达式从字符串中提取多个模式？

问题描述

2 个解决方案

解决方案1 0 2019-03-14 10:04:03

解决方案2 -1 2019-03-14 10:00:04

解决方案1
0 2019-03-14 10:04:03

解决方案2
-1 2019-03-14 10:00:04