groupby中的pandas聚合函數-默認選項？

Question

我有以下數據集（ df ）。 我想使用品牌作為我的索引對其進行groupby ，獲得工人和價值列的平均值以及提供者列的第一個計數。

brand   workers value   provider
H&M      322    56         mark
H&M      450    433        mark
Lindex  678     233        luke
Lindex  543     456        luke
Levi    234     32         chris
Levi    789     12         chris

現在我能

df = df.groupby('brand')['workers', 'value', 'provider'].agg({'workers': mean,  'value':mean, 'provider' : first).reset_index()

但考慮到我的真實數據集作為更多列的方式，我想取平均值並且我不想指定每個列，有沒有更好的方法來聲明默認函數？

有點“取所有非字符串列的平均值和字符串列的第一個觀察值？”

Answer 1

不，但是編寫一些代碼來為你做這件事並不難。

f = dict.fromkeys(df, 'mean')
f.update(
    dict.fromkeys(df.columns[df.dtypes.eq(object)], 'first'))

print(f)
{'brand': 'first', 'provider': 'first', 'value': 'mean', 'workers': 'mean'}

然后將f傳遞給agg 。

df = df.groupby('brand')['workers', 'value', 'provider'].agg(f)

如果要重置索引，則必須從f刪除石斑魚。

del f['brand']
df = df.groupby('brand', as_index=False)['workers', 'value', 'provider'].agg(f)

groupby中的pandas聚合函數-默認選項？

問題描述

1 個解決方案

解決方案1
9 已采納 2018-07-09 04:01:42

groupby中的pandas聚合函數-默認選項？

問題描述

1 個解決方案

解決方案1 9 已采納 2018-07-09 04:01:42

解決方案1
9 已采納 2018-07-09 04:01:42