如果值包含特定子字符串，如何从列值中删除单词？

Question

我有这样的行值：

         ID     MyColumn      
0        A      "Best Position 3 5"
1        B      "Healthy (unexpired)
2        C      "At-Large"
3        D      "Run 2 Position 1"
4        E      "Hello"
4        E      "None"
4        E      "Tomorrow"

我想扫描此表以查找包含子字符串“Position”的任何行，然后对于这些行仅保留 int 的第一个实例。 我有 Lambda / regex 用于在值中获取 int 的第一个实例：

...str.replace(r'\D+', '').str.split()

但我不确定如何在 substring 出现的情况下应用它。

结果集：

         ID     MyColumn      
0        A      "3"
1        B      "Healthy (unexpired)
2        C      "At-Large"
3        D      "2"
4        E      "Hello"
4        E      "None"
4        E      "Tomorrow"

Answer 1

我们也许可以在这里使用带有智能正则表达式的str.replace ：

regex = '.*?(\d+).*(?:Position|unexpired).*|.*?(?:Position|unexpired).*?(\d+).*'
df['new'] = df.loc['MyColumn'].str.replace(regex, '\1\2', case=False)

Answer 2

将Series.str.contains与Series.str.extract用于第一个 integer 与Series.mask并最后由Series.fillna替换为原始不匹配值：

mask= df['MyColumn'].str.contains('Position|unexpired', case=False)
df['MyColumn']=(df['MyColumn'].mask(mask,df['MyColumn'].str.extract(r'(\d+)',expand=False))
                              .fillna(df['MyColumn']))
print (df)
  ID              MyColumn
0  A                     3
1  B  "Healthy (unexpired)
2  C            "At-Large"
3  D                     2
4  E               "Hello"
4  E                "None"
4  E            "Tomorrow"

如果值包含特定子字符串，如何从列值中删除单词？

问题描述

2 个解决方案

解决方案1
2 2020-12-17 06:07:38

解决方案2
1 已采纳 2020-12-17 06:04:37

如果值包含特定子字符串，如何从列值中删除单词？

问题描述

2 个解决方案

解决方案1 2 2020-12-17 06:07:38

解决方案2 1 已采纳 2020-12-17 06:04:37

解决方案1
2 2020-12-17 06:07:38

解决方案2
1 已采纳 2020-12-17 06:04:37