簡體   English   中英

如何在龐大的python列表中刪除重復項

[英]how to remove duplicates in a huge python list

我有一個龐大的python列表,大約100 MB的大小,包含字符串和整數。 我有一些字符串,一式三份和重復。 我嘗試使用以下代碼刪除重復項:

from collections import OrderedDict

duplicates = [.......large size list of 100 MB....]

remove = OrderedDict.fromkeys(duplicates).keys()

print remove

我已經完成了較小的列表,並且效果很好,有了這么大的列表,這花了我整整一整天,但還沒有完成。 關於如何在幾分鍾之內完成任何建議。 我已經嘗試在Ubuntu中安裝CUDA來解決這個問題,但是仍然出現錯誤:請參見此處

不確定這是否足夠有效,但是解決此問題的一種簡單方法是將列表轉換為集合。

def unique(objects):
    return list(sorted(set(objects)))

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM