在具有重叠组的列上分组

Question

这将产生一个具有81列并填充有随机数的dafatrame：

import pandas as pd
import itertools
import numpy as np

col = "A,B,C".split(',')
col1 = "1,2,3,4,5,6,7,8,9".split(',')
col2 = "E,F,G".split(',')

all_dims = [col, col1, col2]
all_keys = ['.'.join(i) for i in itertools.product(*all_dims)]
rng = pd.date_range(end=pd.Timestamp.today().date(), periods=12, freq='M')
df = pd.DataFrame(np.random.randint(0, 1000, size=(len(rng), len(all_keys))), columns=all_keys, index=rng)

具有以下81个列名称的数据框：

 ['A.1.E', 'A.1.F', 'A.1.G', 'A.2.E', 'A.2.F', 'A.2.G', 'A.3.E', 'A.3.F', 'A.3.G', 'A.4.E', 
'A.4.F', 'A.4.G', 'A.5.E', 'A.5.F', 'A.5.G', 'A.6.E','A.6.F', 'A.6.G', 'A.7.E', 'A.7.F', 
'A.7.G', 'A.8.E', 'A.8.F', 'A.8.G', 'A.9.E', 'A.9.F', 'A.9.G', 'B.1.E', 'B.1.F', 'B.1.G', 
'B.2.E', 'B.2.F', 'B.2.G', 'B.3.E', 'B.3.F', 'B.3.G', 'B.4.E', 'B.4.F', 'B.4.G', 'B.5.E', 
'B.5.F', 'B.5.G', 'B.6.E', 'B.6.F', 'B.6.G', 'B.7.E', 'B.7.F', 'B.7.G', 'B.8.E', 'B.8.F', 
'B.8.G', 'B.9.E', 'B.9.F', 'B.9.G', 'C.1.E', 'C.1.F', 'C.1.G', 'C.2.E', 'C.2.F', 'C.2.G', 
'C.3.E', 'C.3.F', 'C.3.G', 'C.4.E', 'C.4.F', 'C.4.G', 'C.5.E', 'C.5.F', 'C.5.G', 'C.6.E', 
'C.6.F', 'C.6.G', 'C.7.E', 'C.7.F', 'C.7.G', 'C.8.E', 'C.8.F', 'C.8.G', 'C.9.E', 'C.9.F','C.9.G']

使用上一个问题的解决方案，我知道如何制作一个例如带所有'A。*。E'列（中间有任何数字）的石斑鱼函数，将它们求和并产生一个名为'A的命名输出列。 SUM.E'。 然后对“ A。*。F”，“ A。*。G”等进行相同的操作：

def grouper(col):
    c = col.split('.')
    return f'{c[0]}.SUM.{c[-1]}'

df.groupby(grouper, axis=1).sum()

我的问题是函数也可以以产生重叠组的方式编写吗？ 例如，是否可以创建一个为（'A.1.E'+'A.2.E'）生成SUM1并为（'A.1.E'+'A.3.E' ），因此“ A.1.E”列将同时出现在这两个总数中。

Answer 1

对于groupby，这是不可能的，因为任何给定的列只能在一个组中，而不能在多个组中。 为了解决这种情况，您可以修改我对第一个问题的第一个解决方案：

cols = sorted([(x[0],x[1]) for x in set([(x.split('.')[0], x.split('.')[-1]) for x in df.columns])])
for c0,c1 in cols:
    for n in range(2,10):
        df[f'{c0}.SUM{n}.{c1}'] = df.filter(regex = f'{c0}\.(1|{n})\.{c1}').sum(axis=1)

（根据您的示例，这将适用于列标题中的一位数字（1到9）。如果数字> 9，则必须相应地修改正则表达式。）

在具有重叠组的列上分组

问题描述

1 个解决方案

解决方案1
0 已采纳 2019-08-28 09:05:26

在具有重叠组的列上分组

问题描述

1 个解决方案

解决方案1 0 已采纳 2019-08-28 09:05:26

解决方案1
0 已采纳 2019-08-28 09:05:26