[英]how to remove duplicates in a huge python list
我有一個龐大的python列表,大約100 MB的大小,包含字符串和整數。 我有一些字符串,一式三份和重復。 我嘗試使用以下代碼刪除重復項:
from collections import OrderedDict
duplicates = [.......large size list of 100 MB....]
remove = OrderedDict.fromkeys(duplicates).keys()
print remove
我已經完成了較小的列表,並且效果很好,有了這么大的列表,這花了我整整一整天,但還沒有完成。 關於如何在幾分鍾之內完成任何建議。 我已經嘗試在Ubuntu中安裝CUDA來解決這個問題,但是仍然出現錯誤:請參見此處
不確定這是否足夠有效,但是解決此問題的一種簡單方法是將列表轉換為集合。
def unique(objects):
return list(sorted(set(objects)))
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.