在列表列表中查找最頻繁出現的配對

Question

我有一個數據集，表示許多技術報告的作者列表。 每個報告可以由一個或多個人撰寫：

a = [
['John', 'Mark', 'Jennifer'],
['John'],
['Joe', 'Mark'],
['John', 'Anna', 'Jennifer'],
['Jennifer', 'John', 'Mark']
]

我必須找到最頻繁的人對，即過去合作最多的人：

['John', 'Jennifer'] - 3 times
['John', 'Mark'] - 2 times
['Mark', 'Jennifer'] - 2 times
etc...

如何在Python中做到這一點？

Answer 1

將collections.Counter字典與itertools.combinations ：

from collections import Counter
from itertools import combinations

d  = Counter()
for sub in a:
    if len(a) < 2:
        continue
    sub.sort()
    for comb in combinations(sub,2):
        d[comb] += 1

print(d.most_common())
[(('Jennifer', 'John'), 3), (('John', 'Mark'), 2), (('Jennifer', 'Mark'), 2), (('Anna', 'John'), 1), (('Joe', 'Mark'), 1), (('Anna', 'Jennifer'), 1)]

most_common()將在最常見的順序返回配對到最低，你想要的第一n最常見的只是通過n d.most_common(n)

Answer 2

import collections
import itertools

a = [
['John', 'Mark', 'Jennifer'],
['John'],
['Joe', 'Mark'],
['John', 'Anna', 'Jennifer'],
['Jennifer', 'John', 'Mark']
]


counts = collections.defaultdict(int)
for collab in a:
    collab.sort()
    for pair in itertools.combinations(collab, 2):
        counts[pair] += 1

for pair, freq in counts.items():
    print(pair, freq)

輸出：

('John', 'Mark') 2
('Jennifer', 'Mark') 2
('Anna', 'John') 1
('Jennifer', 'John') 3
('Anna', 'Jennifer') 1
('Joe', 'Mark') 1

Answer 3

您可以使用集合理解來創建所有數字的集合，然后使用列表理解來計算子列表中對名稱的出現：

>>> from itertools import combinations as comb
>>> all_nam={j for i in a for j in i}
>>> [[(i,j),sum({i,j}.issubset(t) for t in a)] for i,j in comb(all_nam,2)]

[[('Jennifer', 'John'), 3], 
 [('Jennifer', 'Joe'), 0], 
 [('Jennifer', 'Anna'), 1], 
 [('Jennifer', 'Mark'), 2], 
 [('John', 'Joe'), 0], 
 [('John', 'Anna'), 1], 
 [('John', 'Mark'), 2], 
 [('Joe', 'Anna'), 0], 
 [('Joe', 'Mark'), 1], 
 [('Anna', 'Mark'), 0]]

在列表列表中查找最頻繁出現的配對

問題描述

3 個解決方案

解決方案1
7 已采納 2015-07-18 21:02:14

解決方案2
2 2015-07-18 21:01:11

解決方案3
1 2015-07-18 21:02:43

在列表列表中查找最頻繁出現的配對

問題描述

3 個解決方案

解決方案1 7 已采納 2015-07-18 21:02:14

解決方案2 2 2015-07-18 21:01:11

解決方案3 1 2015-07-18 21:02:43

解決方案1
7 已采納 2015-07-18 21:02:14

解決方案2
2 2015-07-18 21:01:11

解決方案3
1 2015-07-18 21:02:43