繁体   English   中英

查找列表中的子集列表的索引

[英]Find the index of a list which is subset in a list of list

我有两个非常大的列表列表(500 万个)。

例如:

1) 第一个列表 a 始终包含 8 个元素的列表。

2) 第二个列表 b 始终包含 4 个元素的列表。

对于 b 中的每个列表,可能有多个子集,但这不是问题。

a=[[0 1 10 9 369 370 379 378],[1 2 11 10 370 371 380 379]..[[0 1 10 9 365 370 379 400]]

b=[[0 1 370 369],[1 2 371 370], ......]

我想知道 b 中的每个列表的 a 中包含其所有元素的列表的索引。

例如:我知道“b[0]=[0 1 370 369]”是“a[0]=[0 1 10 9 369 370 379 378]”的子集,因为 b[0] 中的所有元素都是包含在 a[0] 中。 b[1] 是 a[1] 的子集也是一样。

所以我想要这样的输出:c=[[0],[1].......]。

如果有多个子集,我应该得到类似的结果:c=[[0],[1]....[20,19].....]

我的问题是我的代码太慢了:

index=[]
for i in range(len(b)):
    for j in range(len(a)):
        if set(b[i])<set(a[j]):
        print b[i]
        print a[j]
        print j
        index.append([j]) #index in a 

这是我的代码的输出:

[  0   1 370 369]
[  0   1  10   9 369 370 379 378]
0

[  1   2 371 370]
[  1   2  11  10 370 371 380 379]
1

.
.
[369 370 739 738]
[369 370 379 378 738 739 748 747]
320
.
.

在循环结束时 len(index)=len(b) 因为我确信 b 中的每个列表总是 a 的子集。

每次迭代最多需要 30/40 秒。

我确定有一种更 Pythonic 的方式来执行相同的循环,我该如何加快速度?

谢谢

建立一个字典显示哪些列表中的a包含每个号码:

import collections
number_locations = collections.defaultdict(set)
for i, l in enumerate(a):
    for num in l:
        number_locations[num].add(i)

然后在每个列表b ,查找其中a它的元素可以被发现,并采取交集找到其中的元素a包含所有4个数字:

index = [set.intersection(*[number_locations[num] for num in l]) for l in b]

这会产生一个集合列表; 如果你真的需要列表,你可以在项目上调用list ,或者sorted以获得排序的索引列表。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM