簡體   English   中英

以有效的方式組合正則表達式 python

[英]Combine in an efficient way regex python

設置

我動態創建一個正則表達式列表,即regex_list 列表中的每個正則表達式都肯定至少與應用的文本匹配。 列表中的某些正則表達式可能是相等的。

regex_list = []
for f in foo: # foo is a list of strings e.g. foo = ['foo1', 'foo2', 'foo1', ...]
    # f is a valid expression to be used inside the regex
    regex_list.append(f'[^.]*?{f}[^.]*\.')

regex = re.compile('|'.join(regex_list), flags=re.DOTALL)
result = re.findall(regex, text)

問題

自從

  1. regex_list中的某些正則表達式可能等於
  2. regex_list中的正則表達式與 OR 運算符組合在一起

對於列表中存在另一個副本的正則表達式,僅捕獲文本中的第一個匹配項。

問題

一種解決方法可能是使用 for 循環單獨應用每個正則表達式,但它非常慢。

有沒有一種結合正則表達式並使它們盡可能匹配的好方法?

偶然發現使用re 模塊在 for 循環中單獨應用每個 regex 非常慢,而使用regex 模塊卻出奇的快。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM