繁体   English   中英

在包含 arrays 的 python 列表中查找重复项

[英]Finding duplicates in python list containing arrays

我有一个名为added的 python 列表,其中包含 156 个单独的列表,其中包含两个 cols 引用和一个数组。 一个例子如下:

[0, 1, array]

问题是我有重复项,尽管它们不准确,因为列引用将被翻转。 以下两个将完全相同:

[[0, 1, array], [1, 0, array]]

我尝试删除重复项的方法是对数字进行排序并检查是否相同,如果是,则 append 将结果添加到新列表中。

两者都导致了单独的错误:

for a in range(len(added)):
    added[a][0:2] = added[a][0:2].sort()

TypeError: can only assign an iterable

我还尝试查看该数组是否在我的空 python 列表no_dups中,如果不是,则 append 列引用和数组:

no_dups = []
for a in range(len(added)):
    if added[a][2] in no_dups:
        print('already appended')
    else:
        no_dups.append(added[a])

<input>:2: DeprecationWarning: elementwise comparison failed; this will raise an error in the future.

都没有奏效。 我正在努力弄清楚如何在这里删除重复项。

谢谢。

编辑:可重现的代码:

import numpy as np
import pandas as pd
from sklearn import datasets
data = datasets.load_boston()

df = pd.DataFrame(data.data, columns=data.feature_names)
X = df.to_numpy()


cols = []
added = []
for column in X.T:
    cols.append(column)
for i in range(len(cols)):
    for x in range(len(cols)):
        same_check = cols[i] == cols[x]
        if same_check.all() == True:
            continue
        else:
            added.append([i, x, cols[i] * cols[x]])

此代码应使您可以访问整个创建的added列表。

您的第一个错误是因为list.sort()排序到位,因此它不会返回,因此无法分配。 一种解决方法:

for a in range(len(added)):
    added[a][:2] = sorted(added[a][:2])

然后,您可以获得唯一索引:

unique, idx = np.unique([a[:2] for a in added], axis=0, return_index=True)

no_dups = [added[i] for i in idx]

len(added)
>>> 156

len(no_dups)
>>> 78

您可以将整个添加转换为 numpy 数组,然后对索引进行切片并对它们进行排序,然后使用 np.unique 获取唯一行。

#dummy added in the form [[a,b,array],[a,b,array],...]
added = [np.random.choice(5,2).tolist()+[np.random.randint(10, size=(1,5))] for i in range(156)]

# Convert to numpy
added_np = np.array(added)
vals, idxs = np.unique(np.sort(added_np[:,:2], axis = 1).astype('int'), axis=0, return_index= True)
added_no_duplicate = added_np[idxs].tolist()
  • 至于TypeError: can only assign an iterable

added[a][0:2].sort()返回None因此,您不能将其分配给列表。 如果你想拥有列表,你需要使用实际返回排序列表的方法sorted()

added[a][0:2] = sorted(added[a][0:2])
  • 至于<input>:2: DeprecationWarning: elementwise comparison failed; this will raise an error in the future. <input>:2: DeprecationWarning: elementwise comparison failed; this will raise an error in the future.

这是一个警告,而不是错误。 尽管如此,这对您不起作用,因为作为警告状态,您的 object 阵列没有明确定义的= 因此,当您if added[a][2] in no_dups ,它不能真正将added[a][2]no_dups的元素进行比较,因为没有适当地定义相等性。 如果是numpy数组,可以使用:

for a in range(len(added)):
    added[a][0:2] = sorted(added[a][0:2])
no_dups = []
for a in added:
    add_flag = True
    for b in no_dups:
        #to compare lists, compare first two elements using lists and compare array using .all()
        if (a[0:2]==b[0:2]) and ((a[2]==b[2]).all()):
            print('already appended')
            add_flag = False
            break
    if add_flag:
        no_dups.append(a)

len(no_dups):  78
len(added):   156

但是,如果您的所有 arrays 长度相同,则应使用 numpy 堆叠,这明显更快。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM