繁体   English   中英

如何在包含文本的pandas系列的每一行中提取特定数字

[英]How to extract a specific digit in each row of a pandas series containing text

我有一个pd.Series看起来如下

 O some texts...final exam marks:50 next level:10 1 some texts....final exam marks he has got:54 next level:15 2 some texts...final marks ...some texts: 45 next best level:20 

我想从该系列中提取那些数字50,54,45。 请注意,每行的文本中有多个数字。 我已经尝试过正则表达式,但它不是只提供那些特定的数字,而是取出每一行中的所有数字。 基本上我想在“标记”这个词后面加上数字。 任何帮助,将不胜感激。

ps我现在更新了这个问题。 我尝试了这里给出的解决方案。 事实上,我尝试过

 pd.Series.str.findall('?<=specific text *(\\d{2})') 

但得到并清空列表。 这里示例的表示与实际问题非常相似,因此我编辑了帖子。

许多人提前感谢。

尝试

s.str.extract('.*marks:\s?(\d+)', expand = False)


0    50
1    54
2    45

随着更新:

s.str.extract('.*marks.*?(\d+)', expand = False)

这个正则表达式考虑了在标记之后可能存在或不存在字符的事实

你得到

0    50
1    54
2    45

你需要看一下语法(?<=) ,它断言所需的模式前面有另一个模式, (?<=marks:) *([0-9]+)提取数字后面的数字后跟可选的空格:

s
#0         some texts...final exam marks:50 next lev...
#1         some texts....final exam marks:54 next le...
#2         some texts...final marks: 45 next best le...
#Name: 1, dtype: object

s.str.extract("(?<=marks:) *([0-9]+)", expand=False)

#0    50
#1    54
#2    45
#Name: 1, dtype: object

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM