Pandas - 使用 pivot_table 聚合多個列

Question

我有一個像這樣的 dataframe：

import pandas as pd
import numpy as np

df = pd.DataFrame({"ind0": list("QQQWWWW"), "ind1": list("RRRRSSS"), "vals": range(7), "cols": list("XXYXXYY")})    
print(df)

Output：

  ind0 ind1  vals cols
0    Q    R     0    X
1    Q    R     1    X
2    Q    R     2    Y
3    W    R     3    X
4    W    S     4    X
5    W    S     5    Y
6    W    S     6    Y

我想在從col創建列時聚合值，所以我想到了使用pivot_table ：

df_res = df.pivot_table(index=["ind0", "ind1"], columns="cols", values="vals", aggfunc=np.sum).fillna(0)    
print(df_res)

這給了我：

cols         X     Y
ind0 ind1           
Q    R     1.0   2.0
W    R     3.0   0.0
     S     4.0  11.0

但是，我寧願獲得獨立於ind1類別的總和，同時將信息保留在此列中。 因此，所需的 output 將是：

cols         X    Y
ind0 ind1          
Q    R       1.0  2.0
W    R,S     7.0  11.0

有沒有辦法為此使用pivot_table或pivot或者我必須在第二步中為ind1聚合？ 如果是后者，怎么做？

Answer 1

您可以reset_index和groupby "ind0" 的df_res並使用agg ，在列上使用不同的函數： join "ind1" 的唯一值並對 "X" 和 "Y" sum 。

out = df_res.reset_index().groupby('ind0').agg({'ind1': lambda x: ', '.join(x.unique()), 'X':'sum', 'Y':'sum'})

或者，如果您有多個列需要執行相同的 function，您也可以使用 dict 理解：

funcs = {'ind1': lambda x: ', '.join(x.unique()), **{k:'sum' for k in ('X','Y')}}
out = df_res.reset_index().groupby('ind0').agg(funcs)

Output：

cols  ind1    X     Y
ind0                 
Q        R  1.0   2.0
W     R, S  7.0  11.0

Pandas - 使用 pivot_table 聚合多個列

問題描述

1 個解決方案

解決方案1
1 已采納 2022-02-04 19:07:10

Pandas - 使用 pivot_table 聚合多個列

問題描述

1 個解決方案

解決方案1 1 已采納 2022-02-04 19:07:10

解決方案1
1 已采納 2022-02-04 19:07:10