[英]Python Regex - Capturing Groups of Repeating Patterns
我有一个正在尝试解析的日志文件。 日志文件示例如下:
10 月 23 日 13:03:03.714012 prod1_xyz(RSVV)[201]:#msgtype=EVENT #server=Web/Dev@server1web #func=LKZ_WriteData(第 2992 行)#rc=0 #msgid=XYZ0064 #reqid=0 #msg= Web 活动结束(第 200 节,# SysD 1,文件 222,字节 343422089928,错误 0,中止文件 0,忙碌文件 0)
我想提取所有以 hash 开头的文本,并有一个键和值。 例如,#msgtype=EVENT。 任何仅具有 hash 且没有“=”符号的文本都将被视为一个值。
所以在上面的日志条目中,我想要一个看起来像这样的列表
#msgtype=EVENT
#server=Web/Dev@server1web
#func=LKZ_WriteData ( line 2992 )
#rc=0
#msgid=XYZ0064
#reqid=0
#msg=Web Activity end (section 200, # SysD 1, Files 222, Bytes 343422089928, Errors 0, Aborted Files 0, Busy Files 0) (Notice the hash present in the middle of the text)
我已经尝试过 Python 正则表达式 findall 选项,但我无法捕获所有数据。
例如:
str='Oct 23 13:03:03.714012 prod1_xyz(RSVV)[201]: #msgtype=EVENT #server=Web/Dev@server1web #func=LKZ_WriteData ( line 2992 ) #rc=0 #msgid=XYZ0064 #reqid=0 #msg=Web Activity end (section 200, # SysD 1, Files 222, Bytes 343422089928, Errors 0, Aborted Files 0, Busy Files 0)'
z = re.findall("(#.+?=.+?)(:?#|$)",str)
print(z)
Output:
[('#msgtype=EVENT ', '#'), ('#func=LKZ_WriteData ( line 2992 ) ', '#'), ('#msgid=XYZ0064 ', '#'), ('#msg=Web Activity end (section 200, ', '#')]
(:?#|$)
是一个捕获组,它匹配一个可选的:
,然后是#
,或者字符串的结尾。 由于re.findall
返回所有捕获的子字符串,因此结果是一个元组列表。
你需要
re.findall(r'#[^\s=]+=.*?(?=\s*#[^\s=]+=|$)', text)
查看正则表达式演示
正则表达式详细信息
#[^\s=]+
- #
然后是除空格和=
之外的任何 1+ 个字符=
- a =
字符.*?
- 除换行符以外的任何 0+ 字符,尽可能少(?=\s*#[^\s=]+=|$)
- 最多(且不包括)0+ 个空格、 #
、1+ 个除空格和=
之外的字符,然后=
或字符串末尾。import re
s = "Oct 23 13:03:03.714012 prod1_xyz(RSVV)[201]: #msgtype=EVENT #server=Web/Dev@server1web #func=LKZ_WriteData ( line 2992 ) #rc=0 #msgid=XYZ0064 #reqid=0 #msg=Web Activity end (section 200, # SysD 1, Files 222, Bytes 343422089928, Errors 0, Aborted Files 0, Busy Files 0)"
a = re.findall('#(?=[a-zA-Z]+=).+?=.*?(?= #[a-zA-Z]+=|$)', s)
result = [item.split('=') for item in a]
print(result)
给出:
[['#msgtype', 'EVENT'], ['#server', 'Web/Dev@server1web'], ['#func', 'LKZ_WriteData ( line 2992 )'], ['#rc', '0'], ['#msgid', 'XYZ0064'], ['#reqid', '0'], ['#msg', 'Web Activity end (section 200, # SysD 1, Files 222, Bytes 343422089928, Errors 0, Aborted Files 0, Busy Files 0)']]
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.