根據Python中數據框中的條件創建包含所有唯一可能組合的列表

Question

我有以下數據集：

d = {
'Company':['A','A','A','A','B','B','B','B','C','C','C','C','D','D','D','D'],
'Individual': [1,2,3,4,1,5,6,7,1,8,9,10,10,11,12,13]
}

現在，我需要在Python中創建一個“公司”元素對的列表，它們對應於“個人”中的值。

例如，對於上面的數據集，上面的輸出應如下所示：（（A，B），（A，C），（B，C），（C，D））。 前三個元組，因為個體1是附屬的A，B和C以及最后一個，個人10隸屬於C和D.

進一步說明 - 如果individual = 1，則上述數據集具有“A”，“B”和“C”值。 現在，我想創建這三個值（元組）的所有唯一組合，因此它應該創建一個包含元組（A，B），（A，C）和（B，C）的列表。 接下來是個人= 2。 這里只有值'A'，因此沒有元組可以附加到列表中。 對於下一個人，每個人只有一個相應的公司，因此沒有進一步的配對。 必須添加的唯一其他元組是Individual = 10，因為它具有值'C'和'D' - 因此應該將元組（C，D）添加到列表中。

Answer 1

一種解決方案是使用pandas ：

import pandas as pd

d = {'Company':['A','A','A','B','B','B','C','C','C'],'Individual': [1,2,3,1,4,5,3,6,7]}

df = pd.DataFrame(d).groupby('Individual')['Company'].apply(list).reset_index()
companies = df.loc[df['Company'].map(len)>1, 'Company'].tolist()

# [['A', 'B'], ['A', 'C']]

這不是最有效的方式，但它可能是直觀的。

Answer 2

試試這個，

temp=df[df.duplicated(subset=['Individual'],keep=False)]
print temp.groupby(['Individual'])['Company'].unique()

>>>1    [A, B]
>>>3    [A, C]

Answer 3

以下是您提煉問題的解決方案：

from collections import defaultdict
from itertools import combinations

data = {'Company':['A','A','A','A','B','B','B','B','C','C','C','C','D','D','D','D'],
        'Individual': [1,2,3,4,1,5,6,7,1,8,9,10,10,11,12,13]}

d = defaultdict(set)

for i, j in zip(data['Individual'], data['Company']):
    d[i].add(j)

res = {k: sorted(map(sorted, combinations(v, 2))) for k, v in d.items()}

# {1: [['A', 'B'], ['A', 'C'], ['B', 'C']],
#  2: [],
#  3: [],
#  4: [],
#  5: [],
#  6: [],
#  7: [],
#  8: [],
#  9: [],
#  10: [['C', 'D']],
#  11: [],
#  12: [],
#  13: []}

根據Python中數據框中的條件創建包含所有唯一可能組合的列表

問題描述

3 個解決方案

解決方案1
4 2018-02-28 11:43:52

解決方案2
1 2018-02-28 11:46:23

解決方案3
1 已采納 2018-02-28 16:34:40

根據Python中數據框中的條件創建包含所有唯一可能組合的列表

問題描述

3 個解決方案

解決方案1 4 2018-02-28 11:43:52

解決方案2 1 2018-02-28 11:46:23

解決方案3 1 已采納 2018-02-28 16:34:40

解決方案1
4 2018-02-28 11:43:52

解決方案2
1 2018-02-28 11:46:23

解決方案3
1 已采納 2018-02-28 16:34:40