set大时搜索和检索包含部分字符串的set元素

Question

我正在处理约10亿行的大型数据集。 我把它们作为set 。

我的任务是挑选出包含工作'risk'那些行。

所以，我用

a = [sent for sent in sent_set if 'risk' in sent]

有没有更好，更快（更多pythonic）的方法呢？

Answer 1

我这里有一个使用数字而不是文本的示例，因为这对于我来说更容易演示。

import time

mySet = set(range(1000000))

clock = time.perf_counter()
a = [x for x in mySet if x % 5 == 3] 
print(time.perf_counter() - clock)

clock = time.perf_counter()
b = list(filter(lambda x: x % 5 == 3, mySet))
print(time.perf_counter() - clock)

clock = time.perf_counter()
c = filter(lambda x: x % 5 == 3, mySet)
print(time.perf_counter() - clock)

0.09295209999999998
0.14730990000000002
3.400000000042258e-06

您使用列表理解的方法似乎非常好，实际上，它比使用list和filter还要快。 但是，如果您能够使用生成器而不是完整的过滤值列表，则filter本身比其他方法要快得多。

set大时搜索和检索包含部分字符串的set元素

问题描述

1 个解决方案

解决方案1
0 2019-08-02 15:48:57

set大时搜索和检索包含部分字符串的set元素

问题描述

1 个解决方案

解决方案1 0 2019-08-02 15:48:57

解决方案1
0 2019-08-02 15:48:57