繁体   English   中英

通过正则表达式匹配连续重复的单词

[英]Matching repeating words in a row by regex

我想在字符串中找到一个替换重复单词,但前提是它们彼此相邻或由空格分隔。 例如:

"<number> <number>" -> "<number>"
"<number><number>"-> "<number>"

但不是

"<number> test <number>" -> "<number> test <number>"

我试过这个:

import re
re.sub(f"(.+)(?=\<number>+)","", label).strip()

但它会为最后一个测试选项提供错误的结果。

你能帮我解决这个问题吗?

您可以使用

re.sub(r"(<number>)(?:\s*<number>)+",r"\1", label).strip()\

请参阅正则表达式演示 详情

  • (<number>) - 第 1 组:一个<number>字符串
  • (?:\s*<number>)+ - 一次或多次出现以下模式序列:
    • \s* - 零个或多个空格
    • <number> - <number>字符串

\1是对 Group 1 值的替换反向引用。

Python 测试

import re
text = '"<number> <number>", "<number><number>", not "<number> test <number>"'
print( re.sub(r"(<number>)(?:\s*<number>)+", r'\1', text) )
# => "<number>", "<number>", not "<number> test <number>"

您可以使用

(<number>\s*){2,}
  • (<number>\s*)捕获组 1 ,匹配<number>后跟可选字符
  • {2,}重复 2 次或更多次

在替换使用组 1 中。

正则表达式演示

import re

strings = [
    "<number> <number>",
    "<number><number>",
    "not <number> test <number>",
    " <number>   <number><number>  <number>     test"
]

for s in strings:
    print(re.sub(r"(<number>\s*){2,}", r"\1", s))

Output

<number>
<number>
not <number> test <number>
 <number>     test

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM