[英]How to sort multindex columns in Pandas
我正在尝试操纵一堆多索引熊猫数组。 每列都是具有不同类别分组的时间序列。 我想对数据进行排序,然后对所有类别进行解析,然后再进行一些其他的数据操作。 这是我正在尝试但无法正常工作的示例代码
import pandas as pd
import numpy as np
df=pd.DataFrame({'t': range(1,11)})
df.set_index(['t'],inplace=True)
for num in range(2):
labely = (str(num),'A','y')
labelx = (str(num),'A','x')
labelbx = (str(num),'B','x')
df[labelx]= np.random.randn(10)
df[labelbx]= np.random.randn(10)
df[labely]= np.random.randn(10)+range(1,11)
df.columns = pd.MultiIndex.from_tuples(df.columns, names=['ID','Location','Direction'])
df[('0','A','tot')]=df[('0','A','y')]+df[('0','A','x')]
df.sort_index(level='ID',inplace=True)
df.head()
这没有排序。 结果是总数未与其他0 ID分组,而Locations未分组到一起:
ID 0 ... 1 0
Location A B A ... B A A
Direction x x y ... x y tot
t ...
1 0.430386 -0.121109 0.263314 ... 0.243839 0.313505 0.693700
2 -1.262746 -0.678889 1.289814 ... -0.893230 0.373103 0.027068
3 0.245483 -0.565859 3.766628 ... 0.012933 1.652484 4.012111
4 1.518357 0.447032 5.649877 ... -1.205161 5.513507 7.168233
5 -0.095216 -0.571333 6.794958 ... -0.777933 4.073334 6.699741
我有两个与此相关的问题。
这是第二个问题的一些sudo代码
for id in ID:
for loc in Location:
df[(id,loc,'tot')=df[(id,loc,'x')]+df[(id,loc,'y')]
要按列排序,如Ian回答axis = 1:
df.sort_index(level='ID',axis=1,inplace=True)
为了获得要解析的唯一列名称的元组的列表,我需要使用columns.values,然后在计算后求助。
for id,loc,dir in df.columns.values:
df[(id,loc,'tot')]=(df[(id,loc,'x')]**2+df[(id,loc,'y')]**2)**.5
df.sort_index(level='ID',axis=1,inplace=True)
由于这是基本的列计算,因此我认为该方法将是有效的。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.