python dataframe 基于另一列创建一列

Question

我想在 dataframe 中创建另一个列。

dataframe如下，sub_id是id的一部分，说id是sub_id的'parent'，它包括id本身和id中包含的一些项目。

id 没有名字，但 sub_id 有对应的名字

我想用 sub_id 的名字检查 id，然后创建 id 的名字

df = pd.DataFrame({'id':[1,1,1,2,2],
                    'sub_id':[12,1,13,23,2],
                    'name':['pear','fruit','orange','cat','animal']})
   id  sub_id    name
0   1      12    pear
1   1       1   fruit
2   1      13  orange
3   2      23     cat
4   2       2  animal

我想创建另一个列 id_name，以获得：

   id  sub_id    name id_name
0   1      12    pear   fruit
1   1       1   fruit   fruit
2   1      13  orange   fruit
3   2      23     cat  animal
4   2       2  animal  animal

我不知道如何有效地实现它，我只想合并 dataframe 两次，但我认为有更好的方法。

Answer 1

如果将不匹配的id与 sub_id 替换为在sub_id中的Series.where值，则GroupBy.transform将first工作，因为返回第一个非缺失值：

df['id_name'] = (df['name'].where(df['id'].eq(df['sub_id']))
                           .groupby(df['id'])
                           .transform('first'))

或者通过Series.map掩码和映射助手 Series 过滤行：

s = df[df['id'].eq(df['sub_id'])].set_index('id')['name']
df['id_name'] = df['id'].map(s)
print (df)
   id  sub_id    name id_name
0   1      12    pear   fruit
1   1       1   fruit   fruit
2   1      13  orange   fruit
3   2      23     cat  animal
4   2       2  animal  animal

详情：

print (df['name'].where(df['id'].eq(df['sub_id'])))
0       NaN
1     fruit
2       NaN
3       NaN
4    animal
Name: name, dtype: object


print (s)
id
1     fruit
2    animal
Name: name, dtype: object

Answer 2

你的ID是独一无二的吗？

您使用GroupBy.transform获取每个组的min id 并将map用于现有id ：

df['id_name'] = (df.groupby('id')['sub_id'].transform('min')
                   .map(df.set_index('sub_id')['name'])
                )

output：

   id  sub_id    name id_name
0   1      12    pear   fruit
1   1       1   fruit   fruit
2   1      13  orange   fruit
3   2      23     cat  animal
4   2       2  animal  animal

python dataframe 基于另一列创建一列

问题描述

2 个解决方案

解决方案1
2 已采纳 2022-05-03 09:50:51

解决方案2
1 2022-05-03 09:54:58

python dataframe 基于另一列创建一列

问题描述

2 个解决方案

解决方案1 2 已采纳 2022-05-03 09:50:51

解决方案2 1 2022-05-03 09:54:58

解决方案1
2 已采纳 2022-05-03 09:50:51

解决方案2
1 2022-05-03 09:54:58