繁体   English   中英

Python - Pandas将所有其他列和统计度量的列分组为新列

[英]Python - Pandas grouping a column for all other columns and statistical measures as new columns

我有一个Pandas数据帧,如下所示:

Voice_Usage | Data_Usage | Revenue | Age | Segment
--------------------------------------------------
300         | 20         | 400     | 35  | 1
700         | 10         | 300     | 40  | 1
100         | 15         | 200     | 32  | 3
150         | 30         | 100     | 20  | 2
450         | 12         | 450     | 54  | 1
900         | 18         | 800     | 17  | 3
...           ...          ...       ...  ...

我想从上面的数据框中导出一个数据框,其中每个Segment类型将包含数据框中的所有变量及其统计度量(min,max,mean)。

派生的数据框应该像:

Segment | Variables | Min | Max | Mean |
----------------------------------------
1       Voice_Usage  5     100   50    
1       Data_Usage   0     50    30
1       Revenue      50    1500  300
1       Age          10    80    35
2       Voice_Usage  10    200   70    
2       Data_Usage   10    90    50
2       Revenue      30    500   200
2       Age          15    60    25
3       Voice_Usage  5     100   500    
3       Data_Usage   0     50    30
3       Revenue      50    1500  300
3       Age          10    80    35

...等等。

如何从第一个数据框派生第二个数据帧? 我按分段值进行分组,汇总了其他变量但不起作用。 我需要让它成为通用的n no。 数据帧的变量。

利用meltDataFrameGroupBy.agg

df = (df.melt('Segment', var_name='a')
        .groupby(['Segment','a'])['value']
        .agg(['min','max','mean'])
        .reset_index())
print (df)
    Segment            a  min  max        mean
0         1          Age   35   54   43.000000
1         1   Data_Usage   10   20   14.000000
2         1      Revenue  300  450  383.333333
3         1  Voice_Usage  300  700  483.333333
4         2          Age   20   20   20.000000
5         2   Data_Usage   30   30   30.000000
6         2      Revenue  100  100  100.000000
7         2  Voice_Usage  150  150  150.000000
8         3          Age   17   32   24.500000
9         3   Data_Usage   15   18   16.500000
10        3      Revenue  200  800  500.000000
11        3  Voice_Usage  100  900  500.000000

如果想要多个统计信息,请使用DataFrameGroupBy.describe

df = (df.melt('Segment', var_name='a')
        .groupby(['Segment','a'])['value']
        .describe()
        .reset_index())
print (df)
    Segment            a  count        mean         std    min     25%    50%  \
0         1          Age    3.0   43.000000    9.848858   35.0   37.50   40.0   
1         1   Data_Usage    3.0   14.000000    5.291503   10.0   11.00   12.0   
2         1      Revenue    3.0  383.333333   76.376262  300.0  350.00  400.0   
3         1  Voice_Usage    3.0  483.333333  202.072594  300.0  375.00  450.0   
4         2          Age    1.0   20.000000         NaN   20.0   20.00   20.0   
5         2   Data_Usage    1.0   30.000000         NaN   30.0   30.00   30.0   
6         2      Revenue    1.0  100.000000         NaN  100.0  100.00  100.0   
7         2  Voice_Usage    1.0  150.000000         NaN  150.0  150.00  150.0   
8         3          Age    2.0   24.500000   10.606602   17.0   20.75   24.5   
9         3   Data_Usage    2.0   16.500000    2.121320   15.0   15.75   16.5   
10        3      Revenue    2.0  500.000000  424.264069  200.0  350.00  500.0   
11        3  Voice_Usage    2.0  500.000000  565.685425  100.0  300.00  500.0   

       75%    max  
0    47.00   54.0  
1    16.00   20.0  
2   425.00  450.0  
3   575.00  700.0  
4    20.00   20.0  
5    30.00   30.0  
6   100.00  100.0  
7   150.00  150.0  
8    28.25   32.0  
9    17.25   18.0  
10  650.00  800.0  
11  700.00  900.0  

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM