[英]Python regex match multiline text
我的文件中有文字。
INCLUDE '.\..\..\
FE_10-28\
ASSY.bdf'
INCLUDE '.\..\..\FE_10-28\standalone\COORD.bdf'
$ INCLUDE '.\..\..\FE_10-28\standalone\bracket.bdf'
$ INCLUDE '.\..\..\
$ FE_10-28\standalone\
$ ITFC.bdf'
我想要一個表達式來捕獲字符串(以$開頭的行應跳過):
['.\..\..\FE_10-28\ASSY.bdf', '.\..\..\FE_10-28\standalone\COORD.bdf']
我設法過濾了單行字符串:
with open(bdf_name,'r') as f:
file_buff = f.readlines()
text = ''.join(file_buff)
regex_incl = re.compile("[^$]\s+include\s+\'(.*)\'",re.IGNORECASE|re.MULTILINE)
print(regex_incl.findall(text))
但是,多線路情況如何?
首先,您需要標記re.DOTALL
,否則需要一個點.
與換行符不匹配。 並一次讀取所有數據。
with open(bdf_name, 'r') as f:
data = r.read()
re.findall("^include\s+\'(.*?)\'", data,
flags=re.IGNORECASE|re.MULTILINE|re.DOTALL)
#['.\\..\\..\\\nFE_10-28\\\nASSY.bdf', '.\\..\\..\\FE_10-28\\standalone\\COORD.bdf']
如果您不希望換行,請使用.replace("\\n","")
刪除它們。
您可以使用此regex
:
>>> raw = '''
... INCLUDE '.\..\..\
FE_10-28\
ASSY.bdf'
INCLUDE '.\..\..\FE_10-28\standalone\COORD.bdf'
$ INCLUDE '.\..\..\FE_10-28\standalone\bracket.bdf'
$ INCLUDE '.\..\..\
$ FE_10-28\standalone\
$ ITFC.bdf'... ... ... ... ... ... ... ... ... ...
... '''
>>>
>>> re.findall(r"^INCLUDE\s+'(.+?)'\n", raw, re.M|re.DOTALL)
['.\\..\\..FE_10-28ASSY.bdf', '.\\..\\..\\FE_10-28\\standalone\\COORD.bdf']
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.