如何从一列中提取信息以在熊猫数据框中创建新列

Question

我有很多 excel 文件，我想合并，但第一步，我正在尝试操作这些文件。 我的数据或多或少看起来像这样：

会议	类型	角色
议会：12
1	常设	成员
1	常设	成员
议会：13
1	常设	成员
2	常设	成员

现在，我要做的是添加一个新列，其中包含来自会话列的议会信息，同时保持所有其他信息不变。 所以我最终的excel应该是这样的：

会议	类型	角色	议会
1	常设	成员	12
1	常设	成员	12
1	常设	成员	13
2	常设	成员	13

你们能帮我理解如何解决这个问题吗？

Answer 1

您可以使用groupby cumsum()对每个部分组进行分组，然后只需在apply函数中重构数据以匹配您想要的最终输出：

(df.groupby(df.session.str.contains('parliament').cumsum())
   .apply(lambda s: s[1:].assign(parliament=s.head(1).session.item().strip('parliament: ')))
   .reset_index(drop=True))

  session      type    role parliament
0       1  standing  member         12
1       1  standing  member         12
2       1  standing  member         13
3       2  standing  member         13

Answer 2

这是一种方法

df[['txt','parliament']]=df['session'].str.split(':', expand=True).ffill()
df=df[(df['txt']!='parliament')]
df.drop(columns='txt')

    session     type        role    txt     parliament
1         1     standing    member  1         12
2         1     standing    member  1         12
4         1     standing    member  1         13
5         2     standing    member  2         13

Answer 3

你可以在议会之后提取数字：然后在前面填写值：

out = (df[~df['session'].str.startswith('parliament')]
           .join(df['session'].str.extract(r':\s(?P<parliament>\d+)').ffill()))
print(out)

# Output
  session      type    role parliament
1       1  standing  member         12
2       1  standing  member         12
4       1  standing  member         13
5       2  standing  member         13

如何从一列中提取信息以在熊猫数据框中创建新列

问题描述

3 个解决方案

解决方案1
1 2022-07-20 15:31:46

解决方案2
0 2022-07-20 15:34:51

解决方案3
0 2022-07-20 15:37:49

如何从一列中提取信息以在熊猫数据框中创建新列

问题描述

3 个解决方案

解决方案1 1 2022-07-20 15:31:46

解决方案2 0 2022-07-20 15:34:51

解决方案3 0 2022-07-20 15:37:49

解决方案1
1 2022-07-20 15:31:46

解决方案2
0 2022-07-20 15:34:51

解决方案3
0 2022-07-20 15:37:49