[英]python regex: extracting number from string, unknown number format
我需要从字符串中提取第一个数字,但是我不知道数字的确切格式。
该数字可能是以下格式之一... 1.224
十进制数... 3,455,000
某个数字,逗号数量未知... 45%
的百分比...或只是整数5
就像是blah blah $ 2,400
或blah blah 45%
或blah blah $1.23
或blah blah 7
如果它足够智能,可以像blah blah seven
这样的单词数字,那将很有趣
我不需要美元符号,只需要数字
尽管此问题有很多情况,但以下是一个解决方案,它使用一些正则表达式和re
模块解决了大多数问题:
import re
def extractVal(s):
return re.sub(r'^[^0-9$\-]*| .*$', '', s)
(1)删除所有非0-9或$的前导字符串字符
(2)删除所有开头字符,包括第一个空格(在(1)之后)
以下是一些实际数据:
>>> data = ['blah $50,000 10', 'blah -1.224 blah', 'blah 3,455,000 blah', 'blah 45% 10 10 blah', '5 6 4']
>>> print(list(map(extractVal,data)))
['$50,000', '-1.224', '3,455,000', '45%', '5']
此解决方案假定第一个数字以空格结尾。
通过将这些字符串转换为数字,我们可以像其他人所说的走得更远:
def valToInt(s):
if '%' in s:
a = float(s[:-1])/100
else:
a = float(re.sub(r'[,$]','',s))
return int(a) if a == int(a) else a
结果(再次使用map()
函数):
[50000, -1.224, 3455000, 0.45, 5]
如果您坚持使用正则表达式,那么这应该可以工作(仅限于您提到的情况):
rgx = re.compile(r'\d+(,|\.)?\d*')
assert rgx.search("blah blah $ 2,400")
assert rgx.search("blah blah 45%")
assert rgx.search("blah blah $1.23")
assert rgx.search("blah blah 7")
至于blah blah seven
我不认为正则表达式会减少它(至少不是比一位数字更复杂的东西)。
要从具有不同格式的字符串中提取第一个数字,可以使用re.findall()
:
import re
strings = ['45% blah 43%', '1.224 blah 3.2', '3,455,000 blah 4,3', '$1.2 blah blah $ 2,400', '3 blah blah 7']
for string in strings:
first_match = re.findall(r'[0-9$,.%]+\d*', string)[0]
print(first_match)
哪些输出:
45%
1.224
3,455,000
$1.2
3
假设您需要一个实际数字,并且该百分比应转换为小数:
str_ = "blah blah $ 2,400"
number, is_percent = re.search(r"([0-9,.]+)\s*(%?)", str_).groups() or (None, None)
if number is not None:
number = float(number.replace(",", ""))
if is_percent:
number /= 100
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.