如何将 pandas 中的 2 列分组并显示每列的计数？

Question

例如我的 df 是：

movie_name gender
"abc"         f
"abc"         m
"bbb"         m

我想要一个新的 df 是：

movie_name male_count female_count diff
 "abc"         1            1        0
 "bbb"         1            0        1

我怎样才能实现这个目标？

Answer 1

另一种解决方案，使用.pivot_table() ：

df_out = (
    df.pivot_table(index="movie_name", columns="gender", aggfunc="size")
    .fillna(0)
    .astype(int)
    .rename(columns={"m": "male_count", "f": "female_count"})
)
df_out["diff"] = df_out["male_count"] - df_out["female_count"]
print(df_out)

印刷：

gender      female_count  male_count  diff
movie_name                                
"abc"                  1           1     0
"bbb"                  0           1     1

Answer 2

将groupby与unstack()一起使用

df1 = df.groupby(['movie_name','gender'])['gender']\
                    .count().unstack(1,fill_value=0)\
                    .rename(columns={'f' : 'female', 'm' : 'male'})\
                    .add_suffix('_count')

然后使用.map作为 diff 列，这可能是一种更优雅的方式。

df1['diff'] = df1.index.map(df1.stack()\
              .reset_index(1,drop=True)\
              .groupby(level=0).diff().dropna())


gender      female_count  male_count  diff
movie_name                                
abc                    1           1   0.0
bbb                    0           1   1.0

Answer 3

这是一个crosstab表：

out = pd.crosstab(index=df["movie_name"], columns=df["gender"])
out["diff"] = out["m"] - out["f"]

print(out)
gender      f  m  diff
movie_name            
abc         1  1     0
bbb         0  1     1

如何将 pandas 中的 2 列分组并显示每列的计数？

问题描述

3 个解决方案

解决方案1
4 2021-03-31 20:30:17

解决方案2
1 2021-03-31 20:27:41

解决方案3
0 2021-03-31 20:56:35

如何将 pandas 中的 2 列分组并显示每列的计数？

问题描述

3 个解决方案

解决方案1 4 2021-03-31 20:30:17

解决方案2 1 2021-03-31 20:27:41

解决方案3 0 2021-03-31 20:56:35

解决方案1
4 2021-03-31 20:30:17

解决方案2
1 2021-03-31 20:27:41

解决方案3
0 2021-03-31 20:56:35