从交易数据中返回每个季度销售额最高的产品

Question

我有一个数据框如下。

df_sample=pd.DataFrame({'ID':['ID1','ID2','ID2','ID2','ID1','ID2','ID1','ID1'],
         "quarter":['2016Q1','2016Q1','2016Q1','2017Q1','2017Q1','2018Q1','2018Q2','2018Q3'],
         "product":['productA','productB','productA','productD','productA','productA','productD','ProductA'],
         "sales":[100,200,100,400,100,500,400,100]})

我想根据每个ID的累计销售额来获得顶级产品。 即对于 2018Q1 季度的 ID1，我想获取所有数据 <=2018Q1 的每个售出产品的总和，并返回每个 ID 的产品名称。 提前致谢。

预期 output：

pd.DataFrame({'ID':['ID1','ID1','ID1','ID1',   'ID2','ID2','ID2'],
             "quarter":['2016Q1','2017Q1','2018Q2','2018Q3','2016Q1','2017Q1','2018Q1'],
             "product":['productA','productA','productD','productD','productB','ProductD','productA']})

Answer 1

IIUC，您可以使用双重groupby ：

(df_sample
 .groupby(['ID', 'quarter', 'product'])['sales'].sum()
 .unstack('product', fill_value=0)
 .groupby('ID').cumsum()
 .idxmax(1)
)

output：

ID   quarter
ID1  2016Q1     productA
     2017Q1     productA
     2018Q2     productD
     2018Q3     productD
ID2  2016Q1     productB
     2017Q1     productD
     2018Q1     productA
dtype: object

从交易数据中返回每个季度销售额最高的产品

问题描述

1 个解决方案

解决方案1
0 已采纳 2022-08-17 14:43:06

从交易数据中返回每个季度销售额最高的产品

问题描述

1 个解决方案

解决方案1 0 已采纳 2022-08-17 14:43:06

解决方案1
0 已采纳 2022-08-17 14:43:06