使用正則表達式按照特定模式提取多個字符串

Question

我有一個像這樣的長字符串，我想提取Invalid items之后的所有項目，所以我希望正則表達式返回一個列表，如['abc.def.com', 'bar123', 'hello', 'world', '1212', '5566', 'aaaa']

我嘗試使用這種模式，但每場比賽給我一組

import re
test = 'Valid items: (aaa.com; bbb.com); Invalid items: (abc.def.com;); Valid items: (foo123;); Invalid items: (bar123;); Valid items: (1234; 5678; abcd;); Invalid items: (hello; world; 1212; 5566; aaaa;)'
re.findall(r'Invalid items: \((.+?);\)', test)
# ['abc.def.com', 'bar123', 'hello; world; 1212; 5566; aaaa']

有沒有更好的方法用正則表達式來做到這一點？

謝謝

Answer 1

如果您想僅使用一個findall單獨返回所有匹配項，那么您需要使用積極的后視，例如(?<=foo) 。 不幸的是， re模塊僅支持固定寬度的后視。 但是，如果您願意使用出色的正則表達式模塊，那么它可以完成。

正則表達式：

(?<=Invalid items: \([^)]*)[^ ;)]+

演示： https://regex101.com/r/p90Z81/1

如果可能有空項，則對正則表達式稍作修改即可捕獲這些零寬度匹配項，如下所示：

(?<=Invalid items: \([^)]*)(?:[^ ;)]+|(?<=\(| ))

Answer 2

使用re ，您可以將匹配的組拆分為分號和空格

import re
test = 'Valid items: (aaa.com; bbb.com); Invalid items: (abc.def.com;); Valid items: (foo123;); Invalid items: (bar123;); Valid items: (1234; 5678; abcd;); Invalid items: (hello; world; 1212; 5566; aaaa;)'
results = []
for s in re.findall(r'Invalid items: \((.+?);\)', test):
     results = results + s.split(r"; ")

print(results)

Output

['abc.def.com', 'bar123', 'hello', 'world', '1212', '5566', 'aaaa']

請參閱Python 演示。

Answer 3

這將僅選擇有效或無效中提到的所需模式

import re
test = 'Valid items: (abc.h; bac.h); Invalid items: (aaa.123;); Valid items: (aaa H;bbbb H;); Invalid items: (abc;bac;)'
results = []
for s in re.findall(r'Invalid items: \((.+?);\)', test):
     results = results + s.split(r" ; ")
 
print(results)

使用正則表達式按照特定模式提取多個字符串

問題描述

2 個解決方案

解決方案1
2 已采納 2021-02-20 03:48:22

解決方案2
1 2021-02-20 09:06:17

解決方案3
0 2022-12-30 02:50:58

使用正則表達式按照特定模式提取多個字符串

問題描述

2 個解決方案

解決方案1 2 已采納 2021-02-20 03:48:22

解決方案2 1 2021-02-20 09:06:17

解決方案3 0 2022-12-30 02:50:58

解決方案1
2 已采納 2021-02-20 03:48:22

解決方案2
1 2021-02-20 09:06:17

解決方案3
0 2022-12-30 02:50:58