Square Brackets []的Python正则表达式行为

Question

这是文本文件abc.txt

的abc.txt

aa:s0:education.gov.in
bb:s1:defence.gov.in
cc:s2:finance.gov.in

我试图通过使用以下正则表达式对每个“：”进行标记化（纠正我，如果这是不正确的术语:)）来解析此文件。

parser.py

import re,sys,os,subprocess
path = "C:\abc.txt"
site_list = open(path,'r')
for line in site_list:
    site_line = re.search(r'(\w)*:(\w)*:([\w\W]*\.[\W\w]*\.[\W\w]*)',line)
    print('Regex found that site_line.group(2) = '+str(site_line.group(2))

为什么输出

Regex found that site_line.group(2) = 0
Regex found that site_line.group(2) = 1
Regex found that site_line.group(2) = 2

有人可以帮我理解为什么它匹配第二组的最后一个字符？ 我认为它从s0匹配0，从s2和s2匹配1

但为什么？

Answer 1

让我们看一个简化的例子：

>>> re.search(r'(.)*', 'asdf').group(1)
'f'
>>> re.search(r'(.*)', 'asdf').group(1)
'asdf'

如果您在捕获组周围有重复操作符，则该组将存储最后一次重复。 将组放在重复运算符周围可以实现您想要的效果。

如果您希望看到来自第三组的数据，那就是group(3) 。 group(0)是整个匹配， group(1) ， group(2)等通过实际的括号内的捕获组进行计数。

也就是说，正如评论所表明的那样，正则表达式对此非常有用。

>>> 'aa:s0:education.gov.in'.split(':')
['aa', 's0', 'education.gov.in']

Answer 2

第一组 默认 为完全匹配 。

如果groupN参数为零，则相应的返回值是整个匹配字符串。

所以你应该跳过它。 并检查group(3) ，如果你想要最后一个。

此外，您应该在for循环之前编译regexp。 它提高了解析器的性能。

你可以将(\\w)*替换为(\\w*) ，如果你想匹配所有符号: 。

Square Brackets []的Python正则表达式行为

问题描述

2 个解决方案

解决方案1
3 已采纳 2015-02-23 18:00:26

解决方案2
2 2015-02-23 17:49:25

Square Brackets []的Python正则表达式行为

问题描述

2 个解决方案

解决方案1 3 已采纳 2015-02-23 18:00:26

解决方案2 2 2015-02-23 17:49:25

解决方案1
3 已采纳 2015-02-23 18:00:26

解决方案2
2 2015-02-23 17:49:25