基于另一列中的相同值组合 pandas dataframe 列中的文本值

Question

我有数据，其中可能有不同的人与同一个条目相关联。

我需要将这两个条目组合在一起，并注意有两个人在上面。

例如，数据可能如下所示：

Name Share_ID value1 value2 value3 etc.
Joe  0001     1      2      4
Ann  0002     2      5      2
Mel  0001     1      2      4

output 需要：

Name      Share_ID value1 value2 value3 etc.
Joe, Mel  0001     1      2      4
Ann       0002     2      5      2

我尝试使用 groupby

df1.groupby(['Share_ID'])['Name'].apply(', '.join).reset_index()

但我的结果只是：

Share_ID Name
0001     Joe, Mel
0002     Ann

Name 列正确组合，但我丢失了其他列。 请注意，我不希望对其他列应用任何内容——Joe 和 Ann 的记录是相同的。

我认为我的方法已经关闭，但我不确定要使用什么 function。

Answer 1

从您离开的地方开始，您可以将生成的数据集加入到初始 DataFrame：

# Find the merged name data set and rename the 'Name' column
names = df1.groupby(['Share_ID'])['Name'].apply(', '.join).reset_index().rename(columns={'Name':'Merged Name'})
# Join it to the original dataset
df1 = df1.merge(names, on='Share_ID')
# Drop the 'Name' column then drop duplicates.
df1 = df1.drop(columns=['Name']).drop_duplicates()

Answer 2

您可以将得到的结果与原始 dataframe 合并，然后删除重复项：

pd.merge(df1.groupby(['Share_ID'])['Name'].apply(', '.join).reset_index(), df1, on='Share_ID').drop_duplicates(subset='Share_ID')

Answer 3

在分组依据中不使用values字段的任何特殊原因？

df1.groupby(['Share_ID','value1', 'value2', 'value3'])['Name'].apply(', '.join).reset_index()

这将给出所需的 output。

基于另一列中的相同值组合 pandas dataframe 列中的文本值

问题描述

3 个解决方案

解决方案1
1 已采纳 2019-10-08 21:25:30

解决方案2
1 2019-10-08 21:26:52

解决方案3
0 2019-10-08 21:43:43

基于另一列中的相同值组合 pandas dataframe 列中的文本值

问题描述

3 个解决方案

解决方案1 1 已采纳 2019-10-08 21:25:30

解决方案2 1 2019-10-08 21:26:52

解决方案3 0 2019-10-08 21:43:43

解决方案1
1 已采纳 2019-10-08 21:25:30

解决方案2
1 2019-10-08 21:26:52

解决方案3
0 2019-10-08 21:43:43