如何提高在數據幀中使用模糊匹配的速度？

Question

我想使用模糊匹配來檢查數據框是否包含關鍵字。

但是，使用apply非常慢。

有沒有更快的方法？

我們可以使用str或re嗎？

import regex

result = df['sentence'].apply(lambda x: regex.compile('(keyword){e<4}').findall(x)) #slow

非常感謝你。

Answer 1

您為什么在應用內部進行編譯？ 這實際上違背了它的目的。 另外，加快apply調用的最佳方法是不使用apply 。

在沒有背景信息的情況下，我向您介紹：

p = regex.compile('(keyword){e<4}')
result = [p.findall(x) for x in df['sentence']]

如果您只想要一個匹配項（以提高性能），則可能要考慮使用re.search而不是findall。