處理列表列表，查找所有匹配最后一個值的列表？

Question

給定一個列表列表

lol = [[0,a], [0,b],
       [1,b], [1,c],
       [2,d], [2,e],
       [2,g], [2,b],
       [3,e], [3,f]]

我想提取具有相同最后一個元素（ lol[n][1] ）的所有子列表，並最終得到如下內容：

[0,b]
[1.b]
[2,b]
[2,e]
[3,e]

我知道給定兩個列表我們可以使用一個交集，除了在每個循環中增加索引值之外，go 的正確方法是什么？

Answer 1

1.使用collections.defaultdict

您可以使用defaultdict將您的項目進行多次分組，然后遍歷dict.items以獲得您需要的內容。

from collections import defaultdict


lol = [[0,'a'], [0,'b'],
       [1,'b'], [1,'c'],
       [2,'d'], [2,'e'],
       [2,'g'], [2,'b'],
       [3,'e'], [3,'f']]


d = defaultdict(list)

for v,k in lol:
    d[k].append(v)

# d looks like - 
# defaultdict(list,
#             {'a': [0],
#              'b': [0, 1, 2],
#              'c': [1],
#              'd': [2],
#              'e': [2, 3],
#              'g': [2],
#              'f': [3]})
    
result = [[v,k] for k,vs in d.items() for v in vs if len(vs)>1]
print(result)

[[0, 'b'], [1, 'b'], [2, 'b'], [2, 'e'], [3, 'e']]

2.使用pandas.duplicated

這是使用 Pandas 的方法 -

轉換為 pandas dataframe
對於關鍵列，找到重復項並保留所有項
在忽略索引的同時轉換為記錄列表

import pandas as pd

df = pd.DataFrame(lol, columns=['val','key'])
dups = df[df['key'].duplicated(keep=False)]
result = list(dups.to_records(index=False))
print(result)

[(0, 'b'), (1, 'b'), (2, 'e'), (2, 'b'), (3, 'e')]

3.使用numpy.unique

您可以使用 numpy 以矢量化方式解決此問題 -

轉換為 numpy 矩陣arr
查找唯一元素u及其計數c
過濾dup出現多次的唯一元素列表
使用廣播比較數組的第二列並取任何 overaxis=0 以獲得 boolean ，對於重復的行為 True
根據這個boolean過濾arr

import numpy as np

arr = np.array(lol)

u, c = np.unique(arr[:,1], return_counts=True)
dup = u[c > 1]

result = arr[(arr[:,1]==dup[:,None]).any(0)]
result

array([['0', 'b'],
       ['1', 'b'],
       ['2', 'e'],
       ['2', 'b'],
       ['3', 'e']], dtype='<U21')

處理列表列表，查找所有匹配最后一個值的列表？

問題描述

1 個解決方案

解決方案1
1 2021-11-24 01:03:13

1.使用collections.defaultdict

2.使用pandas.duplicated

3.使用numpy.unique

處理列表列表，查找所有匹配最后一個值的列表？

問題描述

1 個解決方案

解決方案1 1 2021-11-24 01:03:13

1.使用collections.defaultdict

2.使用pandas.duplicated

3.使用numpy.unique

解決方案1
1 2021-11-24 01:03:13