Pandas 中的 Groupby 列表

Question

我有一个 dataframe：

df = pd.DataFrame({'col0':[[0,1],[1,0,0],[1,0],[1,0],[2,0]],
                   'col1':[5,4,3,2,1]})

IE：

        col0  col1
0     [0, 1]     5
1  [1, 0, 0]     4
2     [1, 0]     3
3     [1, 0]     2
4     [2, 0]     1

我想按col0中的值分组，并对同一组中的col1值求和。 我愿意：

df.groupby('col0').col1.sum()

但这给出了TypeError: unhashable type: 'list' 。 然后我这样做：

df.groupby(df.col0.apply(frozenset)).col1.sum()

这使：

col0
(0, 1)    14
(0, 2)     1
Name: col1, dtype: int64

即列表被转换为集合（准确地说是frozenset ），然后被分组。 元素的数量和它们的顺序无关紧要（即[1,0]和[0,1]属于同一组， [1,0]和[1,0,0]也是如此）

如果元素的顺序和数量也很重要，那么我该如何分组呢？

所需的 output 的 groupbying col0和上面 dataframe 的col1相加：

col0
[0, 1]     5
[1,0,0]    4
[1, 0]     5
[2,0]      1
Name: col1, dtype: int64

Answer 1

tuple是不可变的，可以包含重复项并保持顺序。

df['col0'] = df['col0'].apply(tuple)
df.groupby('col0', sort=False).sum() # sort=False for original order of col0 
#            col1
# col0           
# (0, 1)        5
# (1, 0, 0)     4
# (1, 0)        5
# (2, 0)        1

Answer 2

您可以转换为字符串仅用于分组：

import pandas as pd
df = pd.DataFrame({'col0':[[0,1],[1,0,0],[1,0],[1,0],[2,0]],
                   'col1':[5,4,3,2,1]})
df.groupby(df['col0'].astype(str)).sum()

Pandas 中的 Groupby 列表

问题描述

2 个解决方案

解决方案1
2 已采纳 2022-01-06 13:10:04

解决方案2
1 2022-01-06 13:08:50

Pandas 中的 Groupby 列表

问题描述

2 个解决方案

解决方案1 2 已采纳 2022-01-06 13:10:04

解决方案2 1 2022-01-06 13:08:50

解决方案1
2 已采纳 2022-01-06 13:10:04

解决方案2
1 2022-01-06 13:08:50