[英]remove duplicates from nested dictionaries in list
快速和非常基本的新手問題。
如果我有這樣的詞典列表:
L = []
L.append({"value1": value1, "value2": value2, "value3": value3, "value4": value4})
假設存在多個條目,其中value3和value4與其他嵌套字典相同。 如何快速輕松地找到並刪除那些重復的詞典。
保持秩序並不重要。
謝謝。
編輯:
如果有五個輸入,如下所示:
L = [{"value1": fssd, "value2": dsfds, "value3": abcd, "value4": gk},
{"value1": asdasd, "value2": asdas, "value3": dafdd, "value4": sdfsdf},
{"value1": sdfsf, "value2": sdfsdf, "value3": abcd, "value4": gk},
{"value1": asddas, "value2": asdsa, "value3": abcd, "value4": gk},
{"value1": asdasd, "value2": dskksks, "value3": ldlsld, "value4": sdlsld}]
輸出應該如下所示:
L = [{"value1": fssd, "value2": dsfds, "value3": abcd, "value4": gk},
{"value1": asdasd, "value2": asdas, "value3": dafdd, "value4": sdfsdf},
{"value1": asdasd, "value2": dskksks, "value3": ldlsld, "value4": sdlsld}
這是一種方式:
keyfunc = lambda d: (d['value3'], d['value4'])
from itertools import groupby
giter = groupby(sorted(L, key=keyfunc), keyfunc)
L2 = [g[1].next() for g in giter]
print L2
在Python 2.6或3. *中:
import itertools
import pprint
L = [{"value1": "fssd", "value2": "dsfds", "value3": "abcd", "value4": "gk"},
{"value1": "asdasd", "value2": "asdas", "value3": "dafdd", "value4": "sdfsdf"},
{"value1": "sdfsf", "value2": "sdfsdf", "value3": "abcd", "value4": "gk"},
{"value1": "asddas", "value2": "asdsa", "value3": "abcd", "value4": "gk"},
{"value1": "asdasd", "value2": "dskksks", "value3": "ldlsld", "value4": "sdlsld"}]
getvals = operator.itemgetter('value3', 'value4')
L.sort(key=getvals)
result = []
for k, g in itertools.groupby(L, getvals):
result.append(g.next())
L[:] = result
pprint.pprint(L)
在Python 2.5中幾乎相同,除了你必須在追加中使用g.next()而不是next(g)。
您可以使用臨時數組來存儲項目dict。 之前的代碼被刪除了刪除for循環中的項目。
(v,r) = ([],[])
for i in l:
if ('value4', i['value4']) not in v and ('value3', i['value3']) not in v:
r.append(i)
v.extend(i.items())
l = r
你的考試:
l = [{"value1": 'fssd', "value2": 'dsfds', "value3": 'abcd', "value4": 'gk'},
{"value1": 'asdasd', "value2": 'asdas', "value3": 'dafdd', "value4": 'sdfsdf'},
{"value1": 'sdfsf', "value2": 'sdfsdf', "value3": 'abcd', "value4": 'gk'},
{"value1": 'asddas', "value2": 'asdsa', "value3": 'abcd', "value4": 'gk'},
{"value1": 'asdasd', "value2": 'dskksks', "value3": 'ldlsld', "value4": 'sdlsld'}]
。OUPUTS
{'value4': 'gk', 'value3': 'abcd', 'value2': 'dsfds', 'value1': 'fssd'}
{'value4': 'sdfsdf', 'value3': 'dafdd', 'value2': 'asdas', 'value1': 'asdasd'}
{'value4': 'sdlsld', 'value3': 'ldlsld', 'value2': 'dskksks', 'value1': 'asdasd'}
for dic in list:
for anotherdic in list:
if dic != anotherdic:
if dic["value3"] == anotherdic["value3"] or dic["value4"] == anotherdic["value4"]:
list.remove(anotherdic)
經過測試
list = [{"value1": 'fssd', "value2": 'dsfds', "value3": 'abcd', "value4": 'gk'},
{"value1": 'asdasd', "value2": 'asdas', "value3": 'dafdd', "value4": 'sdfsdf'},
{"value1": 'sdfsf', "value2": 'sdfsdf', "value3": 'abcd', "value4": 'gk'},
{"value1": 'asddas', "value2": 'asdsa', "value3": 'abcd', "value4": 'gk'},
{"value1": 'asdasd', "value2": 'dskksks', "value3": 'ldlsld', "value4": 'sdlsld'}]
對我來說工作得很好:)
這是一個字典的列表,但是,假設列表中有更多的字典l
:
l = [ldict for ldict in l if ldict.get("value3") != value3 or ldict.get("value4") != value4]
但那是你真正想做的嗎? 也許您需要優化您的描述。
順便說一句,不要使用list
作為名稱,因為它是Python內置的名稱。
編輯:假設您開始使用詞典列表,而不是每個應該與您的示例一起使用的1個詞典列表。 如果其中任何一個值為None,那么它將無效,所以更好的是:
l = [ldict for ldict in l if not ( ("value3" in ldict and ldict["value3"] == value3) and ("value4" in ldict and ldict["value4"] == value4) )]
但它似乎仍然是一個不尋常的數據結構。
編輯:無需使用顯式get
。
此外,解決方案總是存在權衡。 如果沒有更多信息並且沒有實際測量,很難知道哪個性能權衡對於問題最重要。 但是,正如Zen sez所說:“簡單比復雜更好”。
如果我理解正確,您想要丟棄原始列表中稍后的匹配但不關心結果列表的順序,因此:
(經2.5.2測試)
tempDict = {}
for d in L[::-1]:
tempDict[(d["value3"],d["value4"])] = d
L[:] = tempDict.itervalues()
tempDict = None
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.