繁体   English   中英

如何在庞大的python列表中删除重复项

[英]how to remove duplicates in a huge python list

我有一个庞大的python列表,大约100 MB的大小,包含字符串和整数。 我有一些字符串,一式三份和重复。 我尝试使用以下代码删除重复项:

from collections import OrderedDict

duplicates = [.......large size list of 100 MB....]

remove = OrderedDict.fromkeys(duplicates).keys()

print remove

我已经完成了较小的列表,并且效果很好,有了这么大的列表,这花了我整整一整天,但还没有完成。 关于如何在几分钟之内完成任何建议。 我已经尝试在Ubuntu中安装CUDA来解决这个问题,但是仍然出现错误:请参见此处

不确定这是否足够有效,但是解决此问题的一种简单方法是将列表转换为集合。

def unique(objects):
    return list(sorted(set(objects)))

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM