如何在 Python Pandas 中的 DataFrame 中使用逗号分隔的重复行列中的值创建列？

Question

I have Pandas DataFrame like below (data types of "ID" and "COL1" is "object"):我有 Pandas DataFrame 如下所示（“ID”和“COL1”的数据类型是“对象”）：

ID  | COL1 | COL2 | COL3
----|------|------|----
123 | ABc  | 55   | G4
123 | Abc  | 55   | G4
123 | DD   | 55   | G4
44  | RoR  | 41   | P0
44  | RoR  | 41   | P0
55  | XX   | 456  | RR

And I need to:我需要：

Create new column "COL1_cum" where will be all values from "COL1" per ID separated by commas创建新列“COL1_cum”，其中将是每个 ID 中的“COL1”中的所有值，以逗号分隔
Drop duplicated IDs删除重复的 ID
Create new column "COL1_num" where will be information how many different levels is in "COL1" per "ID"创建新列“COL1_num”，其中将提供每个“ID”在“COL1”中有多少不同级别的信息

So as a result I need something like below:因此，我需要以下内容：

ID  | COL1_cum | COL1_num |COL2 | COL3
----|----------|----------|-----|-----
123 | ABc, DD  | 2        | 55  | G4
44  | RoR      | 1        | 41  | P0
55  | XX       | 1        | 456 | RR

Explanation for COL1_num: COL1_num 的解释：

for ID = 123 COL1_num = 2 because for ID = 123 in "COL1" we have 2 different values: "ABc" and "DD"对于 ID = 123 COL1_num = 2 因为对于“COL1”中的 ID = 123，我们有 2 个不同的值：“ABc”和“DD”
for ID = 44 COL1_num = 1 because for ID = 44 in "COL1" we have 1 value: "RoR"对于 ID = 44 COL1_num = 1 因为对于“COL1”中的 ID = 44，我们有 1 个值：“RoR”
for ID = 55 COL1_num = 1 because for ID = 5 in "COL1" we have 1 value: "XX"对于 ID = 55 COL1_num = 1 因为对于“COL1”中的 ID = 5，我们有 1 个值：“XX”

How can I do that in Python Pandas?如何在 Python Pandas 中做到这一点？

Answer 1

If there are 2 columns in input data use DataFrame.drop_duplicates with aggregate join :如果输入数据中有 2 列，请使用DataFrame.drop_duplicates和聚合join ：

df1 = df.drop_duplicates().groupby('ID')['COL1'].agg(','.join).reset_index(name='COL1_cum')

If possible multiple columns is possible specify them:如果可能，可以指定多个列：

df1 = (df.drop_duplicates(['ID','COL1'])
         .groupby('ID')['COL1']
         .agg(','.join)
         .reset_index(name='COL1_cum'))

EDIT:编辑：

First remove duplciates per all columns:首先删除所有列的重复项：

df1 = df.drop_duplicates()
print (df1)
    ID COL1  COL2 COL3
0  123  ABc    55   G4
2  123   DD    55   G4
3   44  RoR    41   P0
5   55   XX   456   RR

Then aggregate join , size and get first values per another columns (because same values per groups ID ):然后聚合join ， size并获取每个其他列的第一个值（因为每个组ID的值相同）：

df2 = (df1.groupby('ID', sort=False, as_index=False)
          .agg(COL1_cum =('COL1',','.join),
               COL1_num=('COL1','size'),
               COL2=('COL2','first'),
                COL3=('COL3','first')))
print (df2)
    ID COL1_cum  COL1_num  COL2 COL3
0  123   ABc,DD         2    55   G4
1   44      RoR         1    41   P0
2   55       XX         1   456   RR

EDIT2: Real data are not duplicated by all columns, possible solution: EDIT2：真实数据不会被所有列复制，可能的解决方案：

df2 = (df.groupby('ID', sort=False, as_index=False)
          .agg(COL1_cum =('COL1',lambda x: ','.join(dict.fromkeys(x))),
               COL1_num=('COL1','nunique'),
               COL2=('COL2','first'),
                COL3=('COL3','first')))
print (df2)
    ID COL1_cum  COL1_num  COL2 COL3
0  123   ABc,DD         2    55   G4
1   44      RoR         1    41   P0
2   55       XX         1   456   RR

如何在 Python Pandas 中的 DataFrame 中使用逗号分隔的重复行列中的值创建列？

问题描述

1 个解决方案

解决方案1
0 已采纳 2022-09-12 10:28:40

如何在 Python Pandas 中的 DataFrame 中使用逗号分隔的重复行列中的值创建列？

问题描述

1 个解决方案

解决方案1 0 已采纳 2022-09-12 10:28:40

解决方案1
0 已采纳 2022-09-12 10:28:40