繁体   English   中英

Python - pandas,分组依据和最大计数

[英]Python - pandas, group by and max count

我需要来自 column cluster-2 的 column cluster-1 中最相似的(最大计数)。

输入数据

输入数据

Output - 数据

输出

如果我想像这样 output 呢? 那么我该怎么做呢?

输出 2 - 数据

输出 2

我使用命令: df.groupby(['cluster-1','cluster-2'])['cluster-2'].count()这个命令会给我在cluster-2列中每次出现的计数。 我需要关于如何进行的建议,谢谢。

使用SeriesGroupBy.value_counts因为默认排序值,所以可以通过MultiIndex.to_frameMultiIndex转换为DataFrame ,然后在DataFrame.drop_duplicates中通过cluster-1删除重复项:

df1 = (df.groupby(['cluster-1'])['cluster-2']
         .value_counts()
         .index
         .to_frame(index=False)
         .drop_duplicates('cluster-1'))

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM