pandas：当索引不唯一时使用 diff 和 groupby 的问题

Question

我使用熊猫（0.20.3版）和我想申请的diff()与方法groupby()但不是一个数据帧，其结果是“下划线”。

这是代码：

import numpy as np
import pandas as pd

# creating the DataFrame
data = np.random.random(18).reshape(6,3)
indexes = ['B']*3 + ['A']*3
columns = ['x', 'y', 'z']
df = pd.DataFrame(data, index=indexes, columns=columns)
df.index.name = 'chain_id'

# Now I want to apply the diff method in function of the chain_id
df.groupby('chain_id').diff()

结果是一个下划线！

请注意， df.loc['A'].diff()和df.loc['B'].diff()确实返回了预期的结果，所以我不明白为什么它不能与groupby() 。

Answer 1

IIUC，您的错误：无法从重复轴重新索引

df.reset_index().groupby('chain_id').diff().set_index(df.index)
Out[859]: 
                 x         y         z
chain_id                              
B              NaN       NaN       NaN
B        -0.468771  0.192558 -0.443570
B         0.323697  0.288441  0.441060
A              NaN       NaN       NaN
A        -0.198785  0.056766  0.081513
A         0.138780  0.563841  0.635097

pandas：当索引不唯一时使用 diff 和 groupby 的问题

问题描述

1 个解决方案

解决方案1
3 2018-02-20 15:41:19

pandas：当索引不唯一时使用 diff 和 groupby 的问题

问题描述

1 个解决方案

解决方案1 3 2018-02-20 15:41:19

解决方案1
3 2018-02-20 15:41:19