python re.match正則表達式列表

Question

我有兩個列表： ignorelist這是正則表達式的列表，並呼吁另一列表urllist 。 我想使它所以如果在索引項urllist在正則表達式匹配ignorelist ，它不會加入到finallist

ignorelist = ['(?:\.)amazon\.com(?:\/(?:.*))',
            '(?:\.)google\.com(?:\/(?:.*))']

urllist = ['api.amazon.com/', 'fakedomain.com/']
finallist = []

for r in ignorelist:
    r = re.compile(r)
    finallist = [x for x in urllist if not r.match(x)]

哪個輸出

['api.amazon.com/', 'fakedomain.com/']

我試圖使輸出基本上為['fakedomain.com/']因為它與ignorelist中的正則表達式不匹配

Answer 1

這里有幾個問題：

re.match搜索。 您的表達式不是為此而構建的。 使用re.search 。
您在循環中分配結果：錯誤的邏輯。

我會做：

import re

ignorelist = ['(?:\.)amazon\.com(?:\/(?:.*))',
            '(?:\.)google\.com(?:\/(?:.*))']

urllist = ['api.amazon.com/', 'fakedomain.com/']


finallist = [x for x in urllist if not any(re.search(r,x) for r in ignorelist)]

所以finallist僅包含與ignorelist任何正則表達式都不匹配的網址

結果：

['fakedomain.com/']

請注意，我沒有“編譯”正則表達式，但是當測試許多域時，這樣做可能會提高速度。

Answer 2

您正在為忽略列表的每個正則表達式進行過濾，然后每次都重新分配finallist列表。 因此，僅考慮最后一個正則表達式。

finallist = []
for url in urllist:
    if any([re.search(r, url) for r in ignorelist]):
       finallist.append(url)

或使用列表理解：

finallist = [url for url in urllist if not any(re.search(r, url) for r in ignorelist)]

參見工作演示。

python re.match正則表達式列表

問題描述

2 個解決方案

解決方案1
2 已采納 2017-08-18 20:17:37

解決方案2
1 2017-08-18 20:08:19

python re.match正則表達式列表

問題描述

2 個解決方案

解決方案1 2 已采納 2017-08-18 20:17:37

解決方案2 1 2017-08-18 20:08:19

解決方案1
2 已采納 2017-08-18 20:17:37

解決方案2
1 2017-08-18 20:08:19