[英]how to remove duplicates in a huge python list
我有一个庞大的python列表,大约100 MB的大小,包含字符串和整数。 我有一些字符串,一式三份和重复。 我尝试使用以下代码删除重复项:
from collections import OrderedDict
duplicates = [.......large size list of 100 MB....]
remove = OrderedDict.fromkeys(duplicates).keys()
print remove
我已经完成了较小的列表,并且效果很好,有了这么大的列表,这花了我整整一整天,但还没有完成。 关于如何在几分钟之内完成任何建议。 我已经尝试在Ubuntu中安装CUDA来解决这个问题,但是仍然出现错误:请参见此处
不确定这是否足够有效,但是解决此问题的一种简单方法是将列表转换为集合。
def unique(objects):
return list(sorted(set(objects)))
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.