删除列表列表中每个列表中的重复项

Question

我有一个列表列表：

a = [[1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0],
     [2.0, 2.0, 2.0, 2.0, 2.0, 2.0, 3.0, 3.0, 3.0, 3.0, 3.0, 4.0, 4.0, 4.0, 4.0],
     [3.0, 3.0, 3.0, 3.0, 3.0, 3.0, 3.0, 3.0, 5.0, 5.0, 5.0],
     [1.0, 4.0, 4.0, 4.0, 5.0, 5.0, 5.0],
     [5.0, 5.0, 5.0], 
     [1.0]
    ]

我需要做的是删除列表列表中的所有重复项并保留之前的序列。 如

a = [[1.0],
     [2.0, 3.0, 4.0],
     [3.0, 5.0],
     [1.0, 4.0, 5.0],
     [5.0], 
     [1.0]
    ]

Answer 1

如果顺序很重要，您可以与目前看到的项目集进行比较：

a = [[1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0],
     [2.0, 2.0, 2.0, 2.0, 2.0, 2.0, 3.0, 3.0, 3.0, 3.0, 3.0, 4.0, 4.0, 4.0, 4.0],
     [3.0, 3.0, 3.0, 3.0, 3.0, 3.0, 3.0, 3.0, 5.0, 5.0, 5.0],
     [1.0, 4.0, 4.0, 4.0, 5.0, 5.0, 5.0],
     [5.0, 5.0, 5.0], 
     [1.0]]

for index, lst in enumerate(a):
    seen = set()
    a[index] = [i for i in lst if i not in seen and seen.add(i) is None]

这里添加i是为了seen副作用，使用Python的懒惰and求值； seen.add(i)仅在第一次检查（ i not in seen ）评估True调用。

归因：我昨天从@timgeb看到了这种技术。

Answer 2

如果您可以访问 OrderedDict（在 Python 2.7 上），滥用它是一个很好的方法：

import collections
import pprint

a = [[1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0],
     [2.0, 2.0, 2.0, 2.0, 2.0, 2.0, 3.0, 3.0, 3.0, 3.0, 3.0, 4.0, 4.0, 4.0, 4.0],
     [3.0, 3.0, 3.0, 3.0, 3.0, 3.0, 3.0, 3.0, 5.0, 5.0, 5.0],
     [1.0, 4.0, 4.0, 4.0, 5.0, 5.0, 5.0],
     [5.0, 5.0, 5.0], 
     [1.0]
    ]

b = [list(collections.OrderedDict.fromkeys(i)) for i in a]


pprint.pprint(b, width = 40)

输出：

[[1.0],
 [2.0, 3.0, 4.0],
 [3.0, 5.0],
 [1.0, 4.0, 5.0],
 [5.0],
 [1.0]]

Answer 3

这会帮助你。

a = [[1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0],
 [2.0, 2.0, 2.0, 2.0, 2.0, 2.0, 3.0, 3.0, 3.0, 3.0, 3.0, 4.0, 4.0, 4.0, 4.0],
 [3.0, 3.0, 3.0, 3.0, 3.0, 3.0, 3.0, 3.0, 5.0, 5.0, 5.0],
 [1.0, 4.0, 4.0, 4.0, 5.0, 5.0, 5.0],
 [5.0, 5.0, 5.0], 
 [1.0]
]

for _ in range(len(a)):
    a[_] = sorted(list(set(a[_]))) 

print a

输出：

[[1.0], [2.0, 3.0, 4.0], [3.0, 5.0], [1.0, 4.0, 5.0], [5.0], [1.0]]

Answer 4

受 DOSHI 的启发，这是另一种方式，可能是少量可能元素的最佳方式（即排序的少量索引查找），否则记住插入顺序的方式可能会更好：

b = [sorted(set(i), key=i.index) for i in a]

所以只是为了比较这些方法，看到的集合与通过原始索引查找对集合进行排序：

>>> setup = 'l = [1,2,3,4,1,2,3,4,1,2,3,4]*100'
>>> timeit.repeat('sorted(set(l), key=l.index)', setup)
[23.231241687943111, 23.302754517266294, 23.29650511717773]
>>> timeit.repeat('seen = set(); [i for i in l if i not in seen and seen.add(i) is None]', setup)
[49.855933579601697, 50.171151882997947, 51.024657420945005]

在这里我们看到，对于更大的情况，Jon 对每个元素使用的包含测试变得相对非常昂贵，并且由于在这种情况下插入顺序由索引快速确定，因此这种方法效率更高。

然而，通过在列表的末尾附加更多元素，我们看到 Jon 的方法并没有增加太多的成本，而我的方法是：

>>> setup = 'l = [1,2,3,4,1,2,3,4,1,2,3,4]*100 + [8,7,6,5]'
>>> timeit.repeat('sorted(set(l), key=l.index)', setup)
[93.221347206941573, 93.013769266020972, 92.64512197257136]
>>> timeit.repeat('seen = set(); [i for i in l if i not in seen and seen.add(i) is None]', setup)
[51.042504915545578, 51.059295348750311, 50.979311841569142]

鉴于索引的查找时间很短，我想我更喜欢 Jon 的带有可见集合的方法。

删除列表列表中每个列表中的重复项

问题描述

4 个解决方案

解决方案1
4 2014-06-20 15:39:43

解决方案2
2 2014-06-20 15:39:53

解决方案3
0 2014-06-20 16:11:09

解决方案4
0 2014-06-20 16:41:44

删除列表列表中每个列表中的重复项

问题描述

4 个解决方案

解决方案1 4 2014-06-20 15:39:43

解决方案2 2 2014-06-20 15:39:53

解决方案3 0 2014-06-20 16:11:09

解决方案4 0 2014-06-20 16:41:44

解决方案1
4 2014-06-20 15:39:43

解决方案2
2 2014-06-20 15:39:53

解决方案3
0 2014-06-20 16:11:09

解决方案4
0 2014-06-20 16:41:44