Pandas DataFrame 使用多列聚合 function

Question

有沒有辦法編寫一個聚合 function ，就像DataFrame.agg方法中使用的那樣，可以訪問多個正在聚合的數據列？ 典型的用例是加權平均、加權標准差函數。

我希望能夠寫出類似的東西

def wAvg(c, w):
    return ((c * w).sum() / w.sum())

df = DataFrame(....) # df has columns c and w, i want weighted average
                     # of c using w as weight.
df.aggregate ({"c": wAvg}) # and somehow tell it to use w column as weights ...

Answer 1

是的; 使用.apply(...)函數，它將在每個子DataFrame上DataFrame 。 例如：

grouped = df.groupby(keys)

def wavg(group):
    d = group['data']
    w = group['weights']
    return (d * w).sum() / w.sum()

grouped.apply(wavg)

Answer 2

可以使用apply從 groupby 對象返回任意數量的聚合值。 簡單地，返回一個系列，索引值將成為新的列名。

讓我們看一個簡單的例子：

df = pd.DataFrame({'group':['a','a','b','b'],
                   'd1':[5,10,100,30],
                   'd2':[7,1,3,20],
                   'weights':[.2,.8, .4, .6]},
                 columns=['group', 'd1', 'd2', 'weights'])
df

  group   d1  d2  weights
0     a    5   7      0.2
1     a   10   1      0.8
2     b  100   3      0.4
3     b   30  20      0.6

定義一個將傳遞給apply的自定義函數。 它隱式地接受一個 DataFrame - 這意味着data參數是一個 DataFrame。 請注意它如何使用多列，這在agg groupby 方法中是不可能的：

def weighted_average(data):
    d = {}
    d['d1_wa'] = np.average(data['d1'], weights=data['weights'])
    d['d2_wa'] = np.average(data['d2'], weights=data['weights'])
    return pd.Series(d)

使用我們的自定義函數調用 groupby apply方法：

df.groupby('group').apply(weighted_average)

       d1_wa  d2_wa
group              
a        9.0    2.2
b       58.0   13.2

您可以通過將加權總數預先計算到新的 DataFrame 列中來獲得更好的性能，如其他答案中所述，並避免完全使用apply 。

Answer 3

我的解決方案類似於 Nathaniel 的解決方案，只是它是針對單個列的，而且我不會每次都深度復制整個數據幀，這可能會非常慢。 解決方案 groupby(...).apply(...) 的性能提升大約是 100x(!)

def weighted_average(df, data_col, weight_col, by_col):
    df['_data_times_weight'] = df[data_col] * df[weight_col]
    df['_weight_where_notnull'] = df[weight_col] * pd.notnull(df[data_col])
    g = df.groupby(by_col)
    result = g['_data_times_weight'].sum() / g['_weight_where_notnull'].sum()
    del df['_data_times_weight'], df['_weight_where_notnull']
    return result

Answer 4

以下（基於 Wes McKinney 的回答）完全符合我的要求。 我很高興知道在pandas是否有更簡單的方法來做到這一點。

def wavg_func(datacol, weightscol):
    def wavg(group):
        dd = group[datacol]
        ww = group[weightscol] * 1.0
        return (dd * ww).sum() / ww.sum()
    return wavg


def df_wavg(df, groupbycol, weightscol):
    grouped = df.groupby(groupbycol)
    df_ret = grouped.agg({weightscol:sum})
    datacols = [cc for cc in df.columns if cc not in [groupbycol, weightscol]]
    for dcol in datacols:
        try:
            wavg_f = wavg_func(dcol, weightscol)
            df_ret[dcol] = grouped.apply(wavg_f)
        except TypeError:  # handle non-numeric columns
            df_ret[dcol] = grouped.agg({dcol:min})
    return df_ret

函數df_wavg()返回按“groupby”列分組的數據幀，並返回權重列的權重總和。 其他列是加權平均值，或者，如果是非數字，則min()函數用於聚合。

Answer 5

我經常這樣做，發現以下內容非常方便：

def weighed_average(grp):
    return grp._get_numeric_data().multiply(grp['COUNT'], axis=0).sum()/grp['COUNT'].sum()
df.groupby('SOME_COL').apply(weighed_average)

這將計算df中所有數字列的加權平均值，並刪除非數字列。

Answer 6

通過groupby(...).apply(...)實現這一點是無效的。 這是我一直使用的解決方案（主要使用 kalu 的邏輯）。

def grouped_weighted_average(self, values, weights, *groupby_args, **groupby_kwargs):
   """
    :param values: column(s) to take the average of
    :param weights_col: column to weight on
    :param group_args: args to pass into groupby (e.g. the level you want to group on)
    :param group_kwargs: kwargs to pass into groupby
    :return: pandas.Series or pandas.DataFrame
    """

    if isinstance(values, str):
        values = [values]

    ss = []
    for value_col in values:
        df = self.copy()
        prod_name = 'prod_{v}_{w}'.format(v=value_col, w=weights)
        weights_name = 'weights_{w}'.format(w=weights)

        df[prod_name] = df[value_col] * df[weights]
        df[weights_name] = df[weights].where(~df[prod_name].isnull())
        df = df.groupby(*groupby_args, **groupby_kwargs).sum()
        s = df[prod_name] / df[weights_name]
        s.name = value_col
        ss.append(s)
    df = pd.concat(ss, axis=1) if len(ss) > 1 else ss[0]
    return df

pandas.DataFrame.grouped_weighted_average = grouped_weighted_average

Answer 7

這是一個具有以下優點的解決方案：

你不需要提前定義一個函數
您可以在管道中使用它（因為它使用的是 lambda）
您可以命名結果列

：

df.groupby('group')
  .apply(lambda x: pd.Series({
'weighted_average': np.average(x.data, weights = x.weights)})

您還可以使用相同的代碼來執行多個聚合：

df.groupby('group')
  .apply(lambda x: pd.Series({
'weighted_average': np.average(x.data, weights = x.weights), 
'regular_average': np.average(x.data)}))

Answer 8

您可以通過以下方式實現此功能：

(df['c'] * df['w']).groupby(df['groups']).sum() / df.groupby('groups')['w'].sum()

例如：

df = pd.DataFrame({'groups': [1, 1, 2, 2], 'c': [3, 3, 4, 4], 'w': [5, 5, 6, 6]})
(df['c'] * df['w']).groupby(df['groups']).sum() / df.groupby('groups')['w'].sum()

結果：

groups
1    3.0
2    4.0
dtype: float64

Answer 9

添加到 Wes MacKinney 答案，這將重命名聚合列：

grouped = df.groupby(keys)

def wavg(group):
    d = group['data']
    w = group['weights']
    return (d * w).sum() / w.sum()

grouped.apply(wavg).reset_index().rename(columns={0 : "wavg"})

Pandas DataFrame 使用多列聚合 function

問題描述

9 個解決方案

解決方案1
105 2012-06-09 22:07:32

解決方案2
10 2017-11-04 18:16:27

解決方案3
9 2017-06-21 18:21:35

解決方案4
4 2015-11-23 21:36:22

解決方案5
4 2016-02-10 23:07:57

解決方案6
4 2016-02-19 18:51:17

解決方案7
1 2021-05-08 16:13:48

解決方案8
0 2021-06-22 17:45:04

解決方案9
0 2022-09-06 12:47:07

Pandas DataFrame 使用多列聚合 function

問題描述

9 個解決方案

解決方案1 105 2012-06-09 22:07:32

解決方案2 10 2017-11-04 18:16:27

解決方案3 9 2017-06-21 18:21:35

解決方案4 4 2015-11-23 21:36:22

解決方案5 4 2016-02-10 23:07:57

解決方案6 4 2016-02-19 18:51:17

解決方案7 1 2021-05-08 16:13:48

解決方案8 0 2021-06-22 17:45:04

解決方案9 0 2022-09-06 12:47:07

解決方案1
105 2012-06-09 22:07:32

解決方案2
10 2017-11-04 18:16:27

解決方案3
9 2017-06-21 18:21:35

解決方案4
4 2015-11-23 21:36:22

解決方案5
4 2016-02-10 23:07:57

解決方案6
4 2016-02-19 18:51:17

解決方案7
1 2021-05-08 16:13:48

解決方案8
0 2021-06-22 17:45:04

解決方案9
0 2022-09-06 12:47:07