如何使用itertools提取groupby值？

Question

data = [[12345,"AAA"],[12345,"BBB"],[12345,"CCC"],[98765,"KKK"],[98765,"MMM"],[56321,"JJJ"],[56321,"SSS"],[56321,"PPP"]]
df = pd.DataFrame(data,columns=['Sales_ID','Company_Name'])

大家好，我有以上數據框，我想在每個組內通過Sales_ID創建匹配。 我怎么能在python中做到這一點？

我嘗試將df分組並為每個sales_ID提取所有公司，但不知道下一步該怎么做。

df.groupby('Sales_ID').apply(lambda x:x['Company_Name'].tolist())

預期成績：

Sales_ID Company Company
12345      AAA   BBB
12345      AAA   CCC
12345      BBB   CCC
98765      KKK   MMM
56321      JJJ   SSS
56321      JJJ   PPP
56321      SSS   PPP

謝謝您的幫助。

Answer 1

編輯：@brentertainer指出，無論訂單如何，都需要刪除自我合並和重復的笛卡爾積，然后是<查詢。

df.merge(df, on='Sales_ID').query('Company_Name_x < Company_Name_y')

無論訂購如何，原始的，更復雜的解決方案被排序為刪除重復

import pandas as pd
import numpy as np

res = df.merge(df, on='Sales_ID').query('Company_Name_x != Company_Name_y')

cols = ['Company_Name_x', 'Company_Name_y']
res[cols] = np.sort(res[cols].to_numpy(), axis=1)
res = res.drop_duplicates()

輸出：

    Sales_ID Company_Name_x Company_Name_y
1      12345            AAA            BBB
2      12345            AAA            CCC
5      12345            BBB            CCC
10     98765            KKK            MMM
14     56321            JJJ            SSS
15     56321            JJJ            PPP
18     56321            PPP            SSS

Answer 2

我正在使用itertools

s=df.groupby('Sales_ID',sort=False)['Company_Name'].apply(list)
l=[list(itertools.combinations(x,2)) for x in s]
Newdf=pd.DataFrame({'Sales_ID':s.index.repeat(list(map(len,l)))})
Newdf=pd.concat([Newdf,pd.DataFrame(sum(l,[]))],axis=1)
Newdf
   Sales_ID    0    1
0     12345  AAA  BBB
1     12345  AAA  CCC
2     12345  BBB  CCC
3     98765  KKK  MMM
4     56321  JJJ  SSS
5     56321  JJJ  PPP
6     56321  SSS  PPP

Answer 3

使用pandas *並不總是必要的。 我更喜歡使用toolz或funcy來完成工作（在屏幕后面使用itertools和其他python本機模塊和方法）

import itertools
import toolz  # pip install toolz
import toolz.curried as tc
from operator import itemgetter

grouped_data = toolz.groupby(itemgetter(0), data)

{12345: [[12345, 'AAA'], [12345, 'BBB'], [12345, 'CCC']],
 98765: [[98765, 'KKK'], [98765, 'MMM']],
 56321: [[56321, 'JJJ'], [56321, 'SSS'], [56321, 'PPP']]}

現在要獲取您想要的數據，您需要應用一系列步驟：

result = toolz.thread_first(data, # thread first pipes the data through series of functions
                            tc.groupby(itemgetter(0)), # group by first element
                            tc.valmap(tc.map(itemgetter(1))), # for each group extract the second element from a list of lists
                            tc.valmap(tc.partial(itertools.combinations, r=2)), # for each group make pairs
                            tc.valmap(list)) # this statement creates a list from the combinations generator function (it is howver not nescessary.)

結果：

{12345: [('AAA', 'BBB'), ('AAA', 'CCC'), ('BBB', 'CCC')],
 98765: [('KKK', 'MMM')],
 56321: [('JJJ', 'SSS'), ('JJJ', 'PPP'), ('SSS', 'PPP')]}

如果你想把它框架成熊貓你可以。 否則，如果這是您所尋求的，您可以繼續使用函數式編程方法。

*來自我自己的經驗，尤其是在無服務器應用程序的雲環境中 - 但這不僅僅是重點

如何使用itertools提取groupby值？

問題描述

3 個解決方案

解決方案1
4 2019-07-24 02:47:08

輸出：

解決方案2
4 已采納 2019-07-24 02:48:08

解決方案3
1 2019-07-24 03:20:46

如何使用itertools提取groupby值？

問題描述

3 個解決方案

解決方案1 4 2019-07-24 02:47:08

輸出：

解決方案2 4 已采納 2019-07-24 02:48:08

解決方案3 1 2019-07-24 03:20:46

解決方案1
4 2019-07-24 02:47:08

解決方案2
4 已采納 2019-07-24 02:48:08

解決方案3
1 2019-07-24 03:20:46