使用正則表達式從python字符串中提取模式

Question

我有一個來自其中一個日志文件的字符串，如下所示。

pf_string = "2018-02-01 00:54:49,285 [210.67.123.00]  [ABC,CDE,sfv4_ABC.,dbPool5,11689563,fp2871,en_US]  UNKNOWN-UNKNOWN EVENT-UNKNOWN-UNKNOWN-pc4bcf46t-20180201005446-663570 2994 770 3199 168 26 [Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; ABC-IE11; rv:11.0) like Gecko]     3677610951-0 PERFORMANCE PM_REVIEW FORM_DETAIL [[95211KB 480ms 460ms 20ms 212KB 0KB 118KB 57KB 0 0 ]] 74 139 - - - -   "

現在我想提取如下的模式：

Module_id -> PERFORMANCE 
Page Name -> PM_REVIEW 
Page Qualifier -> FORM_DETAIL

這是一個正則表達式，如下所示：

perfLogPatternPage = re.compile('(?P<module_id>\w+)\s(?P<page_name>\w+)\s(?P<page_qualifier>\w+)\s\[\[')


print perfLogPatternPage.match(pf_string).group('module_id')
print perfLogPatternPage.match(pf_string).group('page_name')
print perfLogPatternPage.match(pf_string).group('page_qualifier')

但這似乎不起作用並給出了正確的結果。

有人可以提出什么是錯的嗎？

Answer 1

立即應用re.search()函數就足夠了：

import re

pf_string = "2018-02-01 00:54:49,285 [210.67.123.00]  [ABC,CDE,sfv4_ABC.,dbPool5,11689563,fp2871,en_US]  UNKNOWN-UNKNOWN EVENT-UNKNOWN-UNKNOWN-pc4bcf46t-20180201005446-663570 2994 770 3199 168 26 [Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; ABC-IE11; rv:11.0) like Gecko]     3677610951-0 PERFORMANCE PM_REVIEW FORM_DETAIL [[95211KB 480ms 460ms 20ms 212KB 0KB 118KB 57KB 0 0 ]] 74 139 - - - -   "

m = re.search(r'(?P<module_id>\w+)\s+(?P<page_name>\w+)\s+(?P<page_qualifier>\w+)\s(?=\[\[.)', pf_string)
module_id, page_name, page_qualifier = m.groups()

Answer 2

你可以試試這個：

import re
pf_string = "2018-02-01 00:54:49,285 [210.67.123.00]  [ABC,CDE,sfv4_ABC.,dbPool5,11689563,fp2871,en_US]  UNKNOWN-UNKNOWN EVENT-UNKNOWN-UNKNOWN-pc4bcf46t-20180201005446-663570 2994 770 3199 168 26 [Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; ABC-IE11; rv:11.0) like Gecko]     3677610951-0 PERFORMANCE PM_REVIEW FORM_DETAIL [[95211KB 480ms 460ms 20ms 212KB 0KB 118KB 57KB 0 0 ]] 74 139 - - - -"
results = dict(zip(['Module_id', 'Page Name', 'Page Qualifier'], re.findall('(?<=\-\d)[a-zA-Z\s_]+(?=\[\[\d)', pf_string)[0].split()))

輸出：

{'Module_id': 'PERFORMANCE', 'Page Qualifier': 'FORM_DETAIL', 'Page Name': 'PM_REVIEW'}

Answer 3

你可以做：

\d+-\d+\s+(?P<module_id>[A-Z_]+)\s+(?P<page_name>[A-Z_]+)\s+(?P<page_qualifier>[A-Z_]+)

\\d+-\\d+\\s+匹配一個或多個數字，后跟- ，后跟一個或多個數字，然后是一個或多個空格
每個命名的捕獲組匹配一個或多個大寫字母字符或下划線
捕獲的組之間的\\s+匹配一個或多個空格

例：

In [12]: rcomp = re.compile(r'\d+-\d+\s+(?P<module_id>[A-Z_]+)\s+(?P<page_name>[A-Z_]+)\s+(?P<page_qualifier>[A-Z_]+)')

In [13]: out = rcomp.search(pf_string)

In [14]: out.group('module_id')
Out[14]: 'PERFORMANCE'

In [15]: out.group('page_name')
Out[15]: 'PM_REVIEW'

In [16]: out.group('page_qualifier')
Out[16]: 'FORM_DETAIL'

Answer 4

您的正則表達式需要一些更正：

從字符串的開頭（ ^ ）開始。
“消費”三次：
- 除[ 。之外的一系列字符。
- [ char。
- 除了]之外的一系列字符。
- ] char。
“消耗”一系列空格（實際上是白色字符 ），一系列數字或-字符和另一個空格序列。
然后將3個命名的捕獲組放在一起，用一系列空格分隔。

所以整個正則表達式如下所示：

^(?:[^\[]+\[[^\]]+\]){3}\s+[-\d]+\s+(?P<module_id>\w+)\s+(?P<page_name>\w+)\s+(?P<page_qualifier>\w+)

有關工作示例，請參閱https://regex101.com/r/e048Q3/1

使用正則表達式從python字符串中提取模式

問題描述

4 個解決方案

解決方案1
2 已采納 2018-02-16 17:42:53

解決方案2
1 2018-02-16 17:59:02

解決方案3
0 2018-02-16 17:38:31

解決方案4
0 2018-02-16 18:02:35

使用正則表達式從python字符串中提取模式

問題描述

4 個解決方案

解決方案1 2 已采納 2018-02-16 17:42:53

解決方案2 1 2018-02-16 17:59:02

解決方案3 0 2018-02-16 17:38:31

解決方案4 0 2018-02-16 18:02:35

解決方案1
2 已采納 2018-02-16 17:42:53

解決方案2
1 2018-02-16 17:59:02

解決方案3
0 2018-02-16 17:38:31

解決方案4
0 2018-02-16 18:02:35