检查值或值列表是否是python中列表子集的最快方法

Question

我有一个非常大的列表，称为main_list ，包含大约 1300 万个列表，每个列表包含 6 个数字。 我正在寻找一种方法来过滤掉不包含某些值的任何列表。 例如，要创建仅包含值为 4 和 5 的列表的新列表列表，我的代码按如下方式工作：

and_include = []
temp_list=[4,5]
for sett in main_list:
    if set(temp_list).issubset(sett):
        and_include.append(sett)

这大约需要 5 秒才能运行，这对于频繁使用来说可能很烦人，所以我想知道是否有更快的方法来做到这一点，使用 numpy 或 cython？

我对 cython 不是很熟悉，但我尝试以这种方式实现，编译它，但我得到了一个错误。

def andinclude(list main_list,list temp_list):
    and_include=[]
    for sett in main_list:
        if set(temp_list).issubset(sett):
            and_include.append(sett)
    return and_include

希望有更快的方法？

Answer 1

这是一个numpy解决方案：

import numpy as np

# Randomly generate 2d array of integers
np.random.seed(1)
a = np.random.randint(low=0, high=9, size=(13000000, 6))

# Use numpy indexing to filter rows
results = a[(a == 4).any(axis=1) & (a == 5).any(axis=1)]

结果：

In [35]: print(results.shape)
(3053198, 6)

In [36]: print(results[:5])
[[5 5 4 5 5 1]
 [5 5 4 3 8 6]
 [2 5 8 1 1 4]
 [0 5 4 1 1 5]
 [3 2 5 2 4 6]]

定时：

In [37]: %timeit results = a[(a == 4).any(axis=1) & (a == 5).any(axis=1)]
923 ms ± 38.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

如果您需要将结果转换回列表列表而不是 2d numpy 数组，您可以使用：

l = results.tolist()

这增加了大约 50% 的时间在我的机器上运行，但仍然比任何涉及循环 Python 列表的解决方案都要快。

Answer 2

您可以使用列表理解而不是在循环中附加。 此外，您可能希望将set(temp_list)的结果存储在局部变量中，这样就不会为相同的结果调用set 1300 万次。

检查值或值列表是否是python中列表子集的最快方法

问题描述

2 个解决方案

解决方案1
2 2019-07-08 08:56:56

解决方案2
0 2019-07-08 08:22:51

检查值或值列表是否是python中列表子集的最快方法

问题描述

2 个解决方案

解决方案1 2 2019-07-08 08:56:56

解决方案2 0 2019-07-08 08:22:51

解决方案1
2 2019-07-08 08:56:56

解决方案2
0 2019-07-08 08:22:51