如何从python中具有一定条件的句子中提取数字？

Question

这是我输入句子的一个例子。 我想从以mm或cm结尾的句子中提取数字。 这是我试图制作的正则表达式。

 sen = 'The study reveals a speculated nodule with pleural tagging at anterior basal segment of LLL, measured 1.9x1.4x2.0 cm in size' 

 re.findall(r'(\d+) cm',sen)

这给出了输出

 ['0']

然后我只是尝试在没有条件的情况下提取数字

 print (re.findall('\d+', sen ))

这给出了输出

 ['1', '9', '1', '4', '2', '0']

我的预期产量是

 ['1.9x1.4x2.0'] or ['1.9', '1.4', '2.0']

不重复，因为我也在寻找cm，mm加浮点数的方法。

Answer 1

您可以使用3个捕获组来获取数字，并确保使用字符类以cm或mm结束测量。

(?<!\S)(\d+\.\d+)x(\d+\.\d+)x(\d+\.\d+) [cm]m(?!\S)

在部分

(?<!\\S)负面的lookbehind，断言左边的内容不是非空白字符
(\\d+\\.\\d+)x捕获组1 ，匹配1+位和小数部分，然后匹配x
(\\d+\\.\\d+)x捕获组2与上面相同
(\\d+.\\d+)捕获组3匹配1+位和小数部分
[cm]m匹配cm或mm
(?!\\S)否定前瞻，断言左边的内容不是非空白字符

正则表达式演示 | Python演示

例如

import re

regex = r"(?<!\S)(\d+\.\d+)x(\d+\.\d+)x(\d+\.\d+) [cm]m(?!\S)"
test_str = "The study reveals a speculated nodule with pleural tagging at anterior basal segment of LLL, measured 1.9x1.4x2.0 cm in size"

print(re.findall(regex, test_str))

产量

[('1.9', '1.4', '2.0')]

要获得包含x可以使用的输出

(?<!\S)(\d+\.\d+x\d+\.\d+x\d+\.\d+) [cm]m(?!\S)

正则表达式演示 | Python演示

产量

['1.9x1.4x2.0']

编辑

要仅匹配值并允许数字和值之间的一个或多个空格，您可以使用正向前瞻：

\d+(?:\.\d+)?(?:(?:x\d+(?:\.\d+)?)*)?(?=[ \t]+[cm]m)

正则表达式

Answer 2

您可以使用re.findall前瞻：

import re
sen = 'The study reveals a speculated nodule with pleural tagging at anterior basal segment of LLL, measured 1.9x1.4x2.0 cm in size' 
result = re.findall(r'[\dx\.]+(?=\scm)', sen)

输出：

['1.9x1.4x2.0']

Answer 3

尝试这个：

sen = 'The study reveals a speculated nodule with pleural tagging at anterior basal segment of LLL, measured 1.9x1.4x2.0 cm in size' 
import re
re.findall('\d+\.\d+', sen)

输出：

['1.9', '1.4', '2.0']

Answer 4

这是另一种方法：

import re
sen = 'The study reveals a speculated nodule with pleural tagging at anterior basal segment of LLL, measured 1.9x1.4x2.0 cm in size' 
output = re.findall('\d.\d', sen)

输出：

['1.9', '1.4', '2.0']

Answer 5

import re    
sen = '''The study reveals a speculated nodule with pleural tagging at anterior basal 
segment of LLL, measured 1.9x1.4x2.0 cm in size'''

print (re.findall('[\d\.]+', sen ))

产量

['1.9', '1.4', '2.0']

如何从python中具有一定条件的句子中提取数字？

问题描述

5 个解决方案

解决方案1
3 已采纳 2019-09-09 12:28:32

解决方案2
0 2019-09-09 12:21:46

解决方案3
0 2019-09-09 12:23:47

解决方案4
0 2019-09-09 12:25:40

解决方案5
0 2019-09-09 12:27:41

产量

如何从python中具有一定条件的句子中提取数字？

问题描述

5 个解决方案

解决方案1 3 已采纳 2019-09-09 12:28:32

解决方案2 0 2019-09-09 12:21:46

解决方案3 0 2019-09-09 12:23:47

解决方案4 0 2019-09-09 12:25:40

解决方案5 0 2019-09-09 12:27:41

产量

解决方案1
3 已采纳 2019-09-09 12:28:32

解决方案2
0 2019-09-09 12:21:46

解决方案3
0 2019-09-09 12:23:47

解决方案4
0 2019-09-09 12:25:40

解决方案5
0 2019-09-09 12:27:41