删除 python 列表中的重复项

Question

我有一个动态列表：

[{'dashboard': 'AG', 'end_date': '2021-06-17 13:13:43', 'location': 'EC & pH Reading', 'zone_name': 'Zone 1 Left'}, 

{'dashboard': 'AG', 'end_date': '2021-06-17 12:40:06', 'location': 'Harvest', 'zone_name': 'Zone 2 Left'}, 

{'dashboard': 'AG', 'end_date': '2021-06-16 15:52:52', 'location': 'Harvest', 'zone_name': 'Zone 1 Left' }, 

{'dashboard': 'AG', 'end_date': '2021-06-16 15:45:51', 'location': 'Harvest', 'zone_name': 'Zone 1 Left'}]

我想删除基于 zone_name 和位置的重复项。 zone_name 中有 3 个值。 我想删除旧的。 我已经使用 end_date 进行了排序。 最新的将排在最前面。 现在我需要删除基于 zone_name 和位置的重复值。

这是我试过的：

final_zone = []
res_list = []
for i in sortedArray:
     if i["location"] not in final_zone:
          sch.append(i)
          final_zone.append(i["location"])

我需要做哪些更改才能根据 zone_name 和位置删除重复项。

那是在左边的 1 区，有 3 个值，我需要最新的一个

Answer 1

对于未排序列表的一般方法：

from itertools import groupby
from operator import itemgetter

# sorting and grouping functions
f_sort = itemgetter("location", "zone_name", "end_date")  # sort by descending
f_group = itemgetter("location", "zone_name")  # group sorted by

result = [
    next(g) for _, g in  # only take latest of each group
    groupby(sorted(array, key=f_sort, reverse=True), key=f_group)
]

这里有一些关于使用过的实用程序的文档（所有这些在很多用例中都非常方便）：

Answer 2

您可以循环遍历列表并记住要保留的索引。

keepers = {}
for i in range(len(sorted_array)):
    keepers(sorted_array[i]['location'])=i ## Will be overwritten if the zone_name repeats

final_array = []
for i in keepers.values():
    final_array.append(sorted_array[i])

作为奖励，您会在keepers.keys()中获得所有区域的列表。

但是您的方法实际上也可能有效。 只需将sch.append(i)更改为res_list.append(i)并更改可迭代对象的顺序（ for i in sorted_array[::-1] ），以便保留最后一个而不是第一个。

Answer 3

clean_list=[]

for elem in lst:
    # control if an element with the same zone name and location
    # is yet present in the clean list
    yet_present= len([el for el in clean_list
                if el['zone_name']==elem['zone_name']
                if el['location']==elem['location']])>0
    if not yet_present:
        clean_list.append(elem)

OUTPUT：

[{'dashboard': 'AG',
  'end_date': '2021-06-17 13:13:43',
  'location': 'EC & pH Reading',
  'zone_name': 'Zone 1 Left'},
 {'dashboard': 'AG',
  'end_date': '2021-06-17 12:40:06',
  'location': 'Harvest',
  'zone_name': 'Zone 2 Left'},
 {'dashboard': 'AG',
  'end_date': '2021-06-16 15:52:52',
  'location': 'Harvest',
  'zone_name': 'Zone 1 Left'}]

Answer 4

其他答案有效，但我想使用Pandas添加解决方案

您可以从字典列表中创建一个 dataframe：

import pandas as pd
d = [{'dashboard': 'AG', 'end_date': '2021-06-17 13:13:43', 'location': 'EC & pH Reading', 'zone_name': 'Zone 1 Left'}, {'dashboard': 'AG', 'end_date': '2021-06-17 12:40:06', 'location': 'Harvest', 'zone_name': 'Zone 2 Left'}, 

{'dashboard': 'AG', 'end_date': '2021-06-16 15:52:52', 'location': 'Harvest', 'zone_name': 'Zone 1 Left' }, 

{'dashboard': 'AG', 'end_date': '2021-06-16 15:45:51', 'location': 'Harvest', 'zone_name': 'Zone 1 Left'}]
df = pd.DataFrame(d)

这是 df 的样子：

dashboard             end_date         location    zone_name
0        AG  2021-06-17 13:13:43  EC & pH Reading  Zone 1 Left
1        AG  2021-06-17 12:40:06          Harvest  Zone 2 Left
2        AG  2021-06-16 15:52:52          Harvest  Zone 1 Left
3        AG  2021-06-16 15:45:51          Harvest  Zone 1 Left

有点像 excel 中的一张桌子。

现在只需一行，您就可以完全按照自己的意愿行事：

df.sort_by("end_date").drop_duplicates(["location", "zone_name"], keep="last")

output：

  dashboard             end_date         location    zone_name
2        AG  2021-06-16 15:52:52          Harvest  Zone 1 Left
1        AG  2021-06-17 12:40:06          Harvest  Zone 2 Left
0        AG  2021-06-17 13:13:43  EC & pH Reading  Zone 1 Left

删除 python 列表中的重复项

问题描述

4 个解决方案

解决方案1
1 2021-06-17 08:55:49

解决方案2
0 2021-06-17 08:49:18

解决方案3
0 已采纳 2021-06-17 08:50:45

解决方案4
0 2021-06-17 08:54:42

删除 python 列表中的重复项

问题描述

4 个解决方案

解决方案1 1 2021-06-17 08:55:49

解决方案2 0 2021-06-17 08:49:18

解决方案3 0 已采纳 2021-06-17 08:50:45

解决方案4 0 2021-06-17 08:54:42

解决方案1
1 2021-06-17 08:55:49

解决方案2
0 2021-06-17 08:49:18

解决方案3
0 已采纳 2021-06-17 08:50:45

解决方案4
0 2021-06-17 08:54:42