Python 正则表达式未正确捕获组

Question

I have the following regex (?:RE:\w+|Reference:)\s*((Mr|Mrs|Ms|Miss)?\s+([\w-]+)\s(\w+)) .我有以下正则表达式(?:RE:\w+|Reference:)\s*((Mr|Mrs|Ms|Miss)?\s+([\w-]+)\s(\w+)) 。

Input text examples:输入文本示例：

RE:11567 Miss Jane Doe 12345678 RE:11567 无名小姐 12345678
Reference: Miss Jane Doe 12345678参考：张小姐 12345678
RE:J123 Miss Jane Doe 12345678 RE:J123 无名小姐 12345678
RE:J123 Miss Jane Doe 12345678 Reference: Test Company RE:J123 Miss Jane Doe 12345678 参考：测试公司

Sample Code:示例代码：

import re

pattern = re.compile('(?:RE:\w+|Reference:)\s*((Mr|Mrs|Ms|Miss)?\s+([\w-]+)\s(\w+))')
result = pattern.findall('RE:11693 Miss Jane Doe 12345678')

For all 4 I expect the output ('Miss Jane Doe', 'Miss', 'Jane', 'Doe') .对于所有 4 个，我期望输出('Miss Jane Doe', 'Miss', 'Jane', 'Doe') 。 However in 4th text example I get [('Miss Jane Doe', 'Miss', 'Jane', 'Doe'), (' Test Company', '', 'Test', 'Company')]但是在第 4 个文本示例中，我得到[('Miss Jane Doe', 'Miss', 'Jane', 'Doe'), (' Test Company', '', 'Test', 'Company')]

How can I get the correct output我怎样才能得到正确的输出

Answer 1

Just add ^ to the start of the regex to only match at the start.只需将^添加到正则表达式的开头即可仅在开头匹配。 This makes it ^(?:RE:\w+|Reference:)\s*((Mr|Mrs|Ms|Miss)?\s+([\w-]+)\s(\w+)) .这使得它成为^(?:RE:\w+|Reference:)\s*((Mr|Mrs|Ms|Miss)?\s+([\w-]+)\s(\w+)) 。

Python 正则表达式未正确捕获组

问题描述

1 个解决方案

解决方案1
1 已采纳 2022-12-21 03:36:48

Python 正则表达式未正确捕获组

问题描述

1 个解决方案

解决方案1 1 已采纳 2022-12-21 03:36:48

解决方案1
1 已采纳 2022-12-21 03:36:48