Python - pandas，分组依据和最大计数

Question

我需要来自 column cluster-2 的 column cluster-1 中最相似的（最大计数）。

输入数据

Output - 数据

如果我想像这样 output 呢？ 那么我该怎么做呢？

输出 2 - 数据

我使用命令： df.groupby(['cluster-1','cluster-2'])['cluster-2'].count()这个命令会给我在cluster-2列中每次出现的计数。 我需要关于如何进行的建议，谢谢。

Answer 1

使用SeriesGroupBy.value_counts因为默认排序值，所以可以通过MultiIndex.to_frame将MultiIndex转换为DataFrame ，然后在DataFrame.drop_duplicates中通过cluster-1删除重复项：

df1 = (df.groupby(['cluster-1'])['cluster-2']
         .value_counts()
         .index
         .to_frame(index=False)
         .drop_duplicates('cluster-1'))

Python - pandas，分组依据和最大计数

问题描述

1 个解决方案

解决方案1
2 已采纳 2021-12-07 06:47:14

Python - pandas，分组依据和最大计数

问题描述

1 个解决方案

解决方案1 2 已采纳 2021-12-07 06:47:14

解决方案1
2 已采纳 2021-12-07 06:47:14