[英]Finding duplicates in python list containing arrays
我有一個名為added
的 python 列表,其中包含 156 個單獨的列表,其中包含兩個 cols 引用和一個數組。 一個例子如下:
[0, 1, array]
問題是我有重復項,盡管它們不准確,因為列引用將被翻轉。 以下兩個將完全相同:
[[0, 1, array], [1, 0, array]]
我嘗試刪除重復項的方法是對數字進行排序並檢查是否相同,如果是,則 append 將結果添加到新列表中。
兩者都導致了單獨的錯誤:
for a in range(len(added)):
added[a][0:2] = added[a][0:2].sort()
TypeError: can only assign an iterable
我還嘗試查看該數組是否在我的空 python 列表no_dups
中,如果不是,則 append 列引用和數組:
no_dups = []
for a in range(len(added)):
if added[a][2] in no_dups:
print('already appended')
else:
no_dups.append(added[a])
<input>:2: DeprecationWarning: elementwise comparison failed; this will raise an error in the future.
都沒有奏效。 我正在努力弄清楚如何在這里刪除重復項。
謝謝。
編輯:可重現的代碼:
import numpy as np
import pandas as pd
from sklearn import datasets
data = datasets.load_boston()
df = pd.DataFrame(data.data, columns=data.feature_names)
X = df.to_numpy()
cols = []
added = []
for column in X.T:
cols.append(column)
for i in range(len(cols)):
for x in range(len(cols)):
same_check = cols[i] == cols[x]
if same_check.all() == True:
continue
else:
added.append([i, x, cols[i] * cols[x]])
此代碼應使您可以訪問整個創建的added
列表。
您的第一個錯誤是因為list.sort()
排序到位,因此它不會返回,因此無法分配。 一種解決方法:
for a in range(len(added)):
added[a][:2] = sorted(added[a][:2])
然后,您可以獲得唯一索引:
unique, idx = np.unique([a[:2] for a in added], axis=0, return_index=True)
no_dups = [added[i] for i in idx]
len(added)
>>> 156
len(no_dups)
>>> 78
您可以將整個添加轉換為 numpy 數組,然后對索引進行切片並對它們進行排序,然后使用 np.unique 獲取唯一行。
#dummy added in the form [[a,b,array],[a,b,array],...]
added = [np.random.choice(5,2).tolist()+[np.random.randint(10, size=(1,5))] for i in range(156)]
# Convert to numpy
added_np = np.array(added)
vals, idxs = np.unique(np.sort(added_np[:,:2], axis = 1).astype('int'), axis=0, return_index= True)
added_no_duplicate = added_np[idxs].tolist()
TypeError: can only assign an iterable
: added[a][0:2].sort()
返回None
因此,您不能將其分配給列表。 如果你想擁有列表,你需要使用實際返回排序列表的方法sorted()
:
added[a][0:2] = sorted(added[a][0:2])
<input>:2: DeprecationWarning: elementwise comparison failed; this will raise an error in the future.
<input>:2: DeprecationWarning: elementwise comparison failed; this will raise an error in the future.
: 這是一個警告,而不是錯誤。 盡管如此,這對您不起作用,因為作為警告狀態,您的 object 陣列沒有明確定義的=
。 因此,當您if added[a][2] in no_dups
,它不能真正將added[a][2]
與no_dups
的元素進行比較,因為沒有適當地定義相等性。 如果是numpy數組,可以使用:
for a in range(len(added)):
added[a][0:2] = sorted(added[a][0:2])
no_dups = []
for a in added:
add_flag = True
for b in no_dups:
#to compare lists, compare first two elements using lists and compare array using .all()
if (a[0:2]==b[0:2]) and ((a[2]==b[2]).all()):
print('already appended')
add_flag = False
break
if add_flag:
no_dups.append(a)
len(no_dups): 78
len(added): 156
但是,如果您的所有 arrays 長度相同,則應使用 numpy 堆疊,這明顯更快。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.