繁体   English   中英

如何在python中使用正则表达式匹配部分字符串?

[英]How to match part of string using regex in python?

这是字符串:

SCOPE OF WORK: Supply &  Flensburg House, MMDA Colony,     PAN#: AAYCS8310G
installation Arumbakkam,Chennai,Tamil Nadu,
  xxxxxx

将在字符串中更改的内容是:

Flensburg House, MMDA Colony,

Arumbakkam,Chennai,Tamil Nadu,

字符串的这些部分可以包含字母、数字、逗号、#、- 和 _

字符串的其余部分将保持原样,包括间距。

这是我正在使用的正则表达式

SCOPE OF WORK: Supply &  [A-Za-z,\s]]*PAN#: [A-Z]{5}[0-9]{4}[A-Z]{1}\n    installation [A-Za-z]\n      xxxxxx

最终我需要获得的是:

Flensburg House, MMDA Colony,     
installation Arumbakkam,Chennai,Tamil Nadu,

我不认为我的正则表达式是完全正确的,我需要帮助来解决这个问题。

关于您当前的模式,我注意到了一些事情:

  • 您正在尝试匹配比文本中更多的空格字符;
  • 两个子字符串的字符类不同。 第二个缺少空格和逗号,也只匹配一次。 + 目前两者都缺少#符号和数字;

假设您只需要在组中获取这两个子字符串(不包括尾随逗号),请尝试:

^SCOPE OF WORK: Supply &  ([\w, #-]+),\s+PAN#: [A-Z]{5}[0-9]{4}[A-Z]\s+installation ([\w, #-]+),\s+x{6}$

查看在线演示


  • ^ - 起跑线锚;
  • SCOPE OF WORK: Supply & - 此子字符串的文字匹配,包括两个尾随空格;
  • ([\w, #-]+) - 第一个捕获组,用于匹配给定类中的 1+ 个字符,其中\w[A-Za-z0-9_]简写,您提到的所有字符都需要包括在内;
  • ,\s+PAN#: - 此子字符串的文字匹配,包括结尾的逗号和 1+ 个空格字符;
  • [AZ]{5}[0-9]{4}[AZ] - 验证后面是 5 个大写字母,4 个数字和一个大写字母(无需量化单个字符);
  • \s+installation - 1+ 个空格字符,包括换行符和尾随空格;
  • ([\w, #-]+) - 第二个捕获组与第一个组匹配相同的模式;
  • ,\s+x{6} - 匹配尾随逗号、1+ 空格字符和 6 个尾随 x;
  • $ - 结束线锚。

import re

s = """SCOPE OF WORK: Supply &  Flensburg House, MMDA Colony,     PAN#: AAYCS8310G
installation Arumbakkam,Chennai,Tamil Nadu,
  xxxxxx"""
  
l = re.findall(r'^SCOPE OF WORK: Supply &  ([\w, #-]+),\s+PAN#: [A-Z]{5}[0-9]{4}[A-Z]\s+installation ([\w, #-]+),\s+x{6}$', s)

print(l)

印刷:

[('Flensburg House, MMDA Colony', 'Arumbakkam,Chennai,Tamil Nadu')]

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM