根據熊貓數據框第 3 列中的條件，按天分組的 2 列的加權平均值

Question

我有一個熊貓數據框

import pandas as pd
df = pd.DataFrame({'Col1' : 16 * ['A', 'B', 'C'], 
                   'Col2' : np.random.rand(48), 
                   'Col3' : np.random.randint(5, 20, 48)},
                   index = pd.date_range('2017-01-01', periods=48, freq='H'))

In [1]: df.tail()
Out [1]: 
                    Col1      Col2  Col3
2017-01-02 19:00:00    B  0.144572     7
2017-01-02 20:00:00    C  0.740500    11
2017-01-02 21:00:00    A  0.357077    19
2017-01-02 22:00:00    B  0.652536     9
2017-01-02 23:00:00    C  0.022437     8

我想返回一個數據框，按日期顯示 Col3 的加權平均值，其中 Col2 是權重，Col1 是“B”或“C”，而忽略“A”。 這將返回如下所示的內容。

           WtdAvg
2017-01-01   XX.X
2017-01-02   YY.Y

Answer 1

過濾數據幀，以除去其中的值是Col1中“A”，然后執行groupby使用np.average ：

df[df['Col1'] != 'A'].groupby(pd.TimeGrouper('D')) \
                     .apply(lambda grp: np.average(grp['Col3'], weights=grp['Col2']))

結果輸出（使用np.random.seed([3,1415])作為隨機狀態種子）：

2017-01-01    11.975517
2017-01-02    12.411798

Answer 2

np.random.seed([3,1415])
df = pd.DataFrame({'Col1' : 16 * ['A', 'B', 'C'], 
                   'Col2' : np.random.rand(48), 
                   'Col3' : np.random.randint(5, 20, 48)},
                   index = pd.date_range('2017-01-01', periods=48, freq='H'))


d1 = df.query('Col1 != "A"').drop('Col1', 1)
d2 = d1.assign(Prod=d1.prod(1)).groupby(pd.TimeGrouper('D'))['Col2', 'Prod'].sum()
d2.Prod.div(d2.Col2)

2017-01-01    11.975517
2017-01-02    12.411798
Freq: D, dtype: float64

根據熊貓數據框第 3 列中的條件，按天分組的 2 列的加權平均值

問題描述

2 個解決方案

解決方案1
4 已采納 2017-01-11 22:46:19

解決方案2
1 2017-01-11 22:59:07

根據熊貓數據框第 3 列中的條件，按天分組的 2 列的加權平均值

問題描述

2 個解決方案

解決方案1 4 已采納 2017-01-11 22:46:19

解決方案2 1 2017-01-11 22:59:07

解決方案1
4 已采納 2017-01-11 22:46:19

解決方案2
1 2017-01-11 22:59:07