pandas groupby with Multiindex：处理其他索引级别

Question

我有 dataframe 和 Multiindex，并尝试仅基于 Multiindex 数据创建新列。 例子：

df = pd.DataFrame(data = {'ticker': ['AAPL', 'AAPL', 'MSFT', 'MSFT'],
                                'date': [pd.Timestamp.now().floor('D') - pd.Timedelta(days = 1), pd.Timestamp.now().floor('D'),
                                         pd.Timestamp.now().floor('D') - pd.Timedelta(days = 2), pd.Timestamp.now().floor('D') - pd.Timedelta(days = 1)],
                                'price': [100, 95, 200, 150]
                            }
                        ).set_index(['ticker', 'date'])
df
#                       price
# ticker    date        
# AAPL      2022-10-09  100
#           2022-10-10  95
# MSFT      2022-10-08  200
#           2022-10-09  150

为每个代码分配具有最小日期的新列：

df['date_min'] = df.reset_index().groupby('ticker')['date'].transform(lambda x: x.min())
df
#                       price   date_min
# ticker    date        
# AAPL      2022-10-09  100     NaT
#           2022-10-10  95      NaT
# MSFT      2022-10-08  200     NaT
#           2022-10-09  150     NaT

以某种方式未分配列值（（

Answer 1

因为你reset_index ，你失去了索引 alignment 并且分配失败。

您可以使用底层 numpy 数组：

df['date_min'] = (df.reset_index()
                    .groupby('ticker', sort=False)['date']
                    .transform(lambda x: x.min())
                    .to_numpy()
                 )

output：

                   price   date_min
ticker date                        
AAPL   2022-10-09    100 2022-10-09
       2022-10-10     95 2022-10-09
MSFT   2022-10-08    200 2022-10-08
       2022-10-09    150 2022-10-08

pandas groupby with Multiindex：处理其他索引级别

问题描述

1 个解决方案

解决方案1
1 已采纳 2022-10-10 13:47:35

pandas groupby with Multiindex：处理其他索引级别

问题描述

1 个解决方案

解决方案1 1 已采纳 2022-10-10 13:47:35

解决方案1
1 已采纳 2022-10-10 13:47:35