在某个单词之后提取文本字符串并在 Pandas 中创建一个新列

Question

我有一个df ：

     ClassOfYear
0    ClassOfYear 2019 something
1    x ClassOfYear 2012 random text 
2    Amy ClassOfYear 2004
3    David Beckham ClassOfYear 1994
     ...

我想创建一个新列，其中仅包含ClassOfYear之后的文本。 IE：

     ClassOfYear
0    ClassOfYear 2019 something
1    ClassOfYear 2012 random text 
2    ClassOfYear 2004
3    ClassOfYear 1994
     ...

编辑：通常每个字符串都有一年，我们可以用年份创建另一列吗？ 预期 Output：

     ClassOfYear                    Year
0    ClassOfYear 2019 something     2019
1    ClassOfYear 2012 random text   2012
2    ClassOfYear 2004               2004
3    ClassOfYear 1994               1994
     ...

Answer 1

尝试使用str.replace ：

df["NewCol"]= df["ClassOfYear"].str.replace("^.*(?=ClassOfYear)", "")

这种方法是匹配从列开始到但不包括文本ClassOfYear的所有内容。 然后，我们用空字符串替换以删除此文本。 请注意，此替换不会影响根本没有文本ClassOfYear的列值。

Answer 2

您可以使用带有assign的简单正则表达式或只是广播您的专栏。

.*是一种贪婪的方法，可以匹配ClassOfYear之后直到字符串结尾的所有内容（行终止符除外）

df = df.assign(newCol=df['ClassOfYear'].str.extract('(ClassOfYear.*)'))

print(df)

                          ClassOfYear                         newCol
0          ClassOfYear 2019 something     ClassOfYear 2019 something
1     x ClassOfYear 2012 random text   ClassOfYear 2012 random text 
2                Amy ClassOfYear 2004               ClassOfYear 2004
3      David Beckham ClassOfYear 1994               ClassOfYear 1994

在某个单词之后提取文本字符串并在 Pandas 中创建一个新列

问题描述

2 个解决方案

解决方案1
3 已采纳 2020-07-01 17:02:57

解决方案2
1 2020-07-01 17:02:20

在某个单词之后提取文本字符串并在 Pandas 中创建一个新列

问题描述

2 个解决方案

解决方案1 3 已采纳 2020-07-01 17:02:57

解决方案2 1 2020-07-01 17:02:20

解决方案1
3 已采纳 2020-07-01 17:02:57

解决方案2
1 2020-07-01 17:02:20