[英]Regex match, get all groups separated by a separator token?
我有一种特殊的编码格式,我想要一个提取编码信息的正则表达式。 我将':'作为特殊字符分隔不同的信息“块”。 例如:
s = 'P:1:a:3:test_data'
应该拆分为:
['P','1','a','3','test_data']
我可以用:
s.split(':')
但是,我也可以对单个':'进行编码(永远不会有超过1个':'分组在一起,因此不会产生歧义)。 因此,例如:
s = 'P:1:::3:test_data'
应该给:
['P','1',':','3','test_data']
在这里使用split(':')失败:
['P', '1', '', '', '3', 'test_data']
捕获“:”的最佳方法是什么? 我对正则表达式不是很坚强,我知道正则表达式组可以使用'* +'匹配至少一个字符,但是我对如何将它们拼凑起来感到非常困惑。 更好的是,没有正则表达式,还有更好的方法吗? 我想我总是可以遍历数组,检查连续的空字符串并将它们组合为':'。 有更优雅的方法吗?
谢谢
对于您的特定情况,您可以使用否定环顾四周来限制要在(?<!:):|:(?!:)
上分割的冒号,该冒号在冒号之前和之后都没有另一个冒号同时:
import re
s = 'P:1:a:3:test_data'
s1 = 'P:1:::3:test_data'
re.split("(?<!:):|:(?!:)", s)
# ['P', '1', 'a', '3', 'test_data']
re.split("(?<!:):|:(?!:)", s1)
# ['P', '1', ':', '3', 'test_data']
另一个更通用并且可以处理多个选项的选项:
与re.findall
和(.+?)(?::|$)
分组,即,懒惰地匹配至少一个字符,直到找到冒号或到达字符串的末尾:
re.findall('(.+?)(?::|$)', 'P:1:::3:test_data')
# ['P', '1', ':', '3', 'test_data']
re.findall('(.+?)(?::|$)', 'P:1:::::3:test_data')
# ['P', '1', ':', ':', '3', 'test_data']
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.