Pandas pivot_table：过滤聚合 function

Question

我正在尝试将标准传递给聚合 function 到 pandas pivot_table，但我无法弄清楚如何将标准传递给 aggfunc。 我有一个转换为 pandas df 的数据表。

输入表数据：

col1	col2	col3	col4	col5	col6	col7
1	测试1	t1	假人1	结果1	10	102.2
2	测试1	t1	假人2	结果2	20	101.2
3	测试1	t1	假人3	结果3	30	102.3
4	测试1	t1	假人4	结果4	40	101.4
5	测试2	t1	假人1	结果1	10	100
6	测试2	t1	假人2	结果2	20	103
7	测试2	t1	假人3	结果3	30	104
8	测试2	t1	假人4	结果4	40	105
9	测试3	t1	假人1	结果1	10	102
10	测试3	t1	假人2	结果2	20	87
11	测试3	t1	假人3	结果3	30	107
12	测试3	t1	假人5	结果4	50	110.2
13	测试4	t1	假人2	结果2	20	120
14	测试5	t1	假人6	结果1	100	88
15	测试1	t1	假人1	结果2	10	106.2
16	测试1	t1	假人1	结果6	10	101.1

我想获得 col7 数据的最大值，但仅当最大值大于 100 时。如果任何 col7 数据大于用户定义的标准，则需要填充所有其他列数据，无论数据是否满足标准与否。

尝试了以下方法：

columns = ['col1', 'col2', 'col3', 'col4', 'col5', 'col6', 'col7']

df = pd.DataFrame({
    'col1': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16],
    'col2': ['test1', 'test1', 'test1', 'test1', 'test2', 'test2', 'test2',
             'test2', 'test3', 'test3', 'test3', 'test3', 'test4', 'test5',
             'test1', 'test1'],
    'col3': ['t1', 't1', 't1', 't1', 't1', 't1', 't1', 't1', 't1', 't1', 't1',
             't1', 't1', 't1', 't1', 't1'],
    'col4': ['Dummy1', 'Dummy2', 'Dummy3', 'Dummy4', 'Dummy1', 'Dummy2',
             'Dummy3', 'Dummy4', 'Dummy1', 'Dummy2', 'Dummy3', 'Dummy5',
             'Dummy2', 'Dummy6', 'Dummy1', 'Dummy1'],
    'col5': ['result1', 'result2', 'result3', 'result4', 'result1', 'result2',
             'result3', 'result4', 'result1', 'result2', 'result3', 'result4',
             'result2', 'result1', 'result2', 'result6'],
    'col6': [10, 20, 30, 40, 10, 20, 30, 40, 10, 20, 30, 50, 20, 100, 10, 10],
    'col7': [100.2, 101.2, 102.3, 101.4, 100.0, 103.0, 104.0, 105.0, 102.0,
             87.0, 107.0, 110.2, 120.0, 88.0, 106.2, 101.1]
})

res=df.pivot_table(values = 'col7', index = ['col4', 'col5', 'col6'], columns = ['col2'], fill_value = '', aggfunc = 'max' >= 100)

TypeError: '>=' not supported between instances of 'str' and 'int'

Output 应如下所示：

不带 col5 的最大旋转 output：

col4	col6	测试1	测试2	测试3	测试4	测试5
假人1	10	106.2	100	102	不适用	不适用
假人2	20	101.2	103	87	120	不适用
假人3	30	102.3	104	107	不适用	不适用
假人4	40	101.4	105	不适用	不适用	不适用
假人5	50	不适用	不适用	110.2	不适用	不适用

最大旋转 output 包括 col5：

col4	col5	col6	测试1	测试2	测试3	测试4	测试5
假人1	结果2	10	106.2	不适用	不适用	不适用	不适用
假人1	结果1	10	102.2	100	102	不适用	不适用
假人2	结果2	20	101.2	103	87	120	不适用
假人3	结果3	30	102.3	104	107	不适用	不适用
假人4	结果4	40	101.4	105	不适用	不适用	不适用
假人5	结果4	50	不适用	不适用	110.2	不适用	不适用

非常感谢任何指导。

谢谢

Answer 1

您无法通过>= ( aggfunc = 'max' >= 100 ) 将单词 'max' 与 100 进行比较：

我建议不要将填充值设置为字符串，屏蔽 DataFrame，以消除不需要的行，然后通过fillna替换为空字符串：

columns = ['col1', 'col2', 'col3', 'col4', 'col5', 'col6', 'col7']
res = df.pivot_table(values='col7', index=['col4', 'col5', 'col6'],
                     columns=['col2'], aggfunc='max')

col2                 test1  test2  test3  test4  test5
col4   col5    col6                                   
Dummy1 result1 10    102.2  100.0  102.0    NaN    NaN
       result2 10    106.2    NaN    NaN    NaN    NaN
       result6 10    101.1    NaN    NaN    NaN    NaN
Dummy2 result2 20    101.2  103.0   87.0  120.0    NaN
Dummy3 result3 30    102.3  104.0  107.0    NaN    NaN
Dummy4 result4 40    101.4  105.0    NaN    NaN    NaN
Dummy5 result4 50      NaN    NaN  110.2    NaN    NaN
Dummy6 result1 100     NaN    NaN    NaN    NaN   88.0

any res >= 100和fillna的任何值的掩码：

res = res[(res >= 100).any(1)].fillna('')

col2                 test1  test2  test3  test4 test5
col4   col5    col6                                  
Dummy1 result1 10    102.2  100.0  102.0             
       result2 10    106.2                           
       result6 10    101.1                           
Dummy2 result2 20    101.2  103.0   87.0  120.0      
Dummy3 result3 30    102.3  104.0  107.0             
Dummy4 result4 40    101.4  105.0                    
Dummy5 result4 50                  110.2

可选的reset_index清除 MultiIndex 和rename_axis清除轴名称：

res[(res >= 100).any(1)].fillna('').reset_index().rename_axis(None, axis=1)

     col4     col5  col6  test1  test2  test3  test4 test5
0  Dummy1  result1    10  102.2  100.0  102.0             
1  Dummy1  result2    10  106.2                           
2  Dummy1  result6    10  101.1                           
3  Dummy2  result2    20  101.2  103.0   87.0  120.0      
4  Dummy3  result3    30  102.3  104.0  107.0             
5  Dummy4  result4    40  101.4  105.0                    
6  Dummy5  result4    50                110.2

完整的工作示例：

import pandas as pd

df = pd.DataFrame({
    'col1': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16],
    'col2': ['test1', 'test1', 'test1', 'test1', 'test2', 'test2', 'test2',
             'test2', 'test3', 'test3', 'test3', 'test3', 'test4', 'test5',
             'test1', 'test1'],
    'col3': ['t1', 't1', 't1', 't1', 't1', 't1', 't1', 't1', 't1', 't1', 't1',
             't1', 't1', 't1', 't1', 't1'],
    'col4': ['Dummy1', 'Dummy2', 'Dummy3', 'Dummy4', 'Dummy1', 'Dummy2',
             'Dummy3', 'Dummy4', 'Dummy1', 'Dummy2', 'Dummy3', 'Dummy5',
             'Dummy2', 'Dummy6', 'Dummy1', 'Dummy1'],
    'col5': ['result1', 'result2', 'result3', 'result4', 'result1', 'result2',
             'result3', 'result4', 'result1', 'result2', 'result3', 'result4',
             'result2', 'result1', 'result2', 'result6'],
    'col6': [10, 20, 30, 40, 10, 20, 30, 40, 10, 20, 30, 50, 20, 100, 10, 10],
    'col7': [102.2, 101.2, 102.3, 101.4, 100.0, 103.0, 104.0, 105.0, 102.0,
             87.0, 107.0, 110.2, 120.0, 88.0, 106.2, 101.1]
})

columns = ['col1', 'col2', 'col3', 'col4', 'col5', 'col6', 'col7']
res = df.pivot_table(values='col7', index=['col4', 'col5', 'col6'],
                     columns=['col2'], aggfunc='max')
res = (
    res[(res >= 100).any(1)].fillna('').reset_index().rename_axis(None, axis=1)
)
print(res)

要获取不带 col5 的值，请将其从pivot_table的index中删除：

columns = ['col1', 'col2', 'col3', 'col4', 'col5', 'col6', 'col7']
res = df.pivot_table(values='col7', index=['col4', 'col6'],
                     columns=['col2'], aggfunc='max')
res = (
    res[(res >= 100).any(1)].fillna('').reset_index().rename_axis(None, axis=1)
)

     col4  col6  test1  test2  test3  test4 test5
0  Dummy1    10  106.2  100.0  102.0             
1  Dummy2    20  101.2  103.0   87.0  120.0      
2  Dummy3    30  102.3  104.0  107.0             
3  Dummy4    40  101.4  105.0                    
4  Dummy5    50                110.2

Answer 2

或者您可以尝试：

res = df.assign(col7 = df.col7.where(df.col7 > 100)).pivot_table(values='col7', index=['col4', 'col5', 'col6'],
                     columns=['col2'], aggfunc='max', fill_value= '')

Pandas pivot_table：过滤聚合 function

问题描述

2 个解决方案

解决方案1
1 已采纳 2021-06-06 19:30:27

解决方案2
0 2021-06-06 19:48:40

Pandas pivot_table：过滤聚合 function

问题描述

2 个解决方案

解决方案1 1 已采纳 2021-06-06 19:30:27

解决方案2 0 2021-06-06 19:48:40

解决方案1
1 已采纳 2021-06-06 19:30:27

解决方案2
0 2021-06-06 19:48:40