![](/img/trans.png)
[英]pandas group by, aggregate using multiple agg functions on input columns
[英]Aggregate on multiple columns with one attribute at the agg function
假設我有一個類似於以下內容的 Pandas dataFrame ( data_stores
):
store| item1 | item2 | item3
------------------------------
1 | 45 | 50 | 53
1 | 200 | 300 | 250
2 | 20 | 17 | 21
2 | 300 | 350 | 400
假設我想在列item1
上聚合mean
,在列item2
和item3
上item2
sum
。
這通常可以通過以下方式完成:
data_stores_total= data_stores.groupby(['store'], as_index=False).agg({'item1': 'mean', 'item2': 'sum', 'item3': 'sum' })
但是,這不能通過以下方式(更有效地)完成:
data_stores_total= data_stores.groupby(['store'], as_index=False).agg({'item1': 'mean', ['item2', 'item3']: 'sum' })
既不是以下對字典鍵更有意義的方式:
data_stores_total= data_stores.groupby(['store'], as_index=False).agg({'mean': 'item1':, 'sum': ['item2', 'item3']})
有沒有辦法在數據幀的某些列上使用相同的函數進行聚合,而無需在agg
函數中為每個列編寫新的字典屬性?
這是不可能的,只有你可以用函數的鍵和列名的列表定義字典,然后在循環中用值交換鍵:
data_stores = pd.DataFrame({'store': [1, 1, 2, 2],
'item1': [45, 200, 20, 300],
'item2': [50, 300, 17, 350],
'item3': [53, 250, 21, 400]})
print (data_stores)
store item1 item2 item3
0 1 45 50 53
1 1 200 300 250
2 2 20 17 21
3 2 300 350 400
d = {'mean':'item1', 'sum' : ['item2', 'item3']}
out = {}
for k, v in d.items():
if isinstance(v, list):
for x in v:
out[x] = k
else:
out[v] = k
print (out)
{'item1': 'mean', 'item2': 'sum', 'item3': 'sum'}
data_stores_total = data_stores.groupby('store', as_index=False).agg(out)
print (data_stores_total)
store item1 item2 item3
0 1 122.5 350 303
1 2 160.0 367 421
或者:
d = {'mean':['item1'], 'sum' : ['item2', 'item3']}
d1 = {k: oldk for oldk, oldv in d.items() for k in oldv}
print (d1)
{'item1': 'mean', 'item2': 'sum', 'item3': 'sum'}
data_stores_total = data_stores.groupby('store', as_index=False).agg(d1)
print (data_stores_total)
store item1 item2 item3
0 1 122.5 350 303
1 2 160.0 367 421
編輯:
如果想通過相同的聚合函數聚合所有列而沒有少數列,您可以通過所有列創建字典,並通過列表過濾出difference
,然后添加缺失對鍵:列值:聚合函數:
out = dict.fromkeys(data_stores.columns.difference(['store','item1']), 'sum')
out['item1'] = 'mean'
print (out)
{'item2': 'sum', 'item3': 'sum', 'item1': 'mean'}
data_stores_total = data_stores.groupby('store', as_index=False).agg(out)
print (data_stores_total)
store item2 item3 item1
0 1 350 303 122.5
1 2 367 421 160.0
您還可以傳遞使用此列的自定義函數:
def func(x):
return x.sum() / x.mean()
out = dict.fromkeys(data_stores.columns.difference(['store','item1']), 'sum')
out['item1'] = func
print (out)
{'item2': 'sum', 'item3': 'sum', 'item1': <function func at 0x000000000F3950D0>}
data_stores_total = data_stores.groupby('store', as_index=False).agg(out)
print (data_stores_total)
store item2 item3 item1
0 1 350 303 2
1 2 367 421 2
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.