计数值，使用 Pandas 保持重复

Question

我有这个 ID 数据集，位于 GUID 的 A 列（250,000 个值）。 我需要计算该列中每个 GUID 出现的次数，然后将其作为数据集中的另一列包含在内。 问题是 using.value_counts() 和 pandas 给了我一个列表，但删除了重复项。 由于我想将新计数数据集与旧数据集对齐，因此列表不对齐。

import os
import pandas as pd

path = (r"D:\\Users\\cdoyle\Desktop\\Final2_.xlsx")
df = pd.read_excel(path)
df = df[['Data BoundingBoxGUID', 'Data Line', 'Data Remove Item:', 'Data Status:', 'Model']]
df2 = df['Data BoundingBoxGUID'].value_counts()


df_output = pd.concat([df,df2], axis=1)

Answer 1

我们通常做transform

df['new'] = df.groupby('Data BoundingBoxGUID')['Data BoundingBoxGUID'].transform('count')

计数值，使用 Pandas 保持重复

问题描述

1 个解决方案

解决方案1
4 已采纳 2019-11-21 01:54:02

计数值，使用 Pandas 保持重复

问题描述

1 个解决方案

解决方案1 4 已采纳 2019-11-21 01:54:02

解决方案1
4 已采纳 2019-11-21 01:54:02