如何返回匹配重复模式的整个非拉丁字符串，例如 AAB 或 ABB

Question

我正在处理非拉丁字符的字符串。 我想将字符串与重复模式匹配，例如 AAB、ABB、ABAB 等。我尝试了以下代码：

import re

patternAAB = re.compile(r'\b(\w)\1\w\b')
match = patternAAB.findall(rawtext)
print(match)

但是，它只返回匹配字符串的第一个字符。 我知道这是因为第一个 \\w 周围的捕获括号。

我试图在整个匹配块周围添加捕获括号，但 Python 给出了

error: cannot refer to an open group at position 7

我也找到了这种方法，但对我不起作用：

patternAAB = re.compile(r'\b(\w)\1\w\b')
match = patternAAB.search(rawtext)
if match:
    print(match.group(1))

如何匹配模式并返回整个匹配字符串？

# Ex. 哈哈笑 
# string matches AAB pattern so my code returns 哈 
# but not the entire string

Answer 1

消息：

error: cannot refer to an open group at position 7

告诉你\\1指的是周围有括号的组，因为它的左括号在前。 您要反向引用的组是 2 号，因此此代码有效：

import re

rawtext = 'abc 哈哈笑 def'

patternAAB = re.compile(r'\b((\w)\2\w)\b')
match = patternAAB.findall(rawtext)
print(match)

match每个项目都有两个组：

[('哈哈笑', '哈')]

Answer 2

我也找到了这种方法，但对我不起作用：

你也离这里很近。 您可以使用match.group(0)获得完整匹配，而不仅仅是括号中的组。 所以这段代码有效：

import re

rawtext = 'abc 哈哈笑 def'

patternAAB = re.compile(r'\b(\w)\1\w\b')
match = patternAAB.search(rawtext)
if match:
    print(match.group(0))   # 哈哈笑

如何返回匹配重复模式的整个非拉丁字符串，例如 AAB 或 ABB

问题描述

2 个解决方案

解决方案1
1 已采纳 2019-04-21 06:44:31

解决方案2
0 2019-04-21 06:49:11

如何返回匹配重复模式的整个非拉丁字符串，例如 AAB 或 ABB

问题描述

2 个解决方案

解决方案1 1 已采纳 2019-04-21 06:44:31

解决方案2 0 2019-04-21 06:49:11

解决方案1
1 已采纳 2019-04-21 06:44:31

解决方案2
0 2019-04-21 06:49:11