[英]cleaned message, which contains only letters a-z, and numbers 0-9 with only one space
[英]How to use re.sub() to leave only letters a-z, A-Z, numbers 0-9 and spaces but not divide numbers?
message = 'Hello(/ how{can} wan\';t //opperate+32.5 u&# kj|'
我只需要留下字母 az、AZ、数字 0-9 和空格,所以我必须得到'Hello how can wan t opperate 325 u kj'
但是当我使用re.sub('[^\w\d]+', ' ', message)
或re.sub('[^A-Za-z0-9]+', ' ', message)
我得到'Hello how can wan t opperate 32 5 u kj'
我怎样才能得到 325一个号码?
您可以使用
re.sub(r'(\d+(?:[,.]\d+)+)|[\W_]+', lambda x: x.group(1) if x.group(1) else ' ', message).strip()
详情:
(\d+(?:[,.]\d+)+)
- 捕获组 1:一个或多个数字后跟一个或多个出现的 a .
或,
和一个或多个数字|
- 或者[\W_]+
- 任何一个或多个非字母数字字符。 如果 Group 1 匹配,则替换为 Group 1 值,否则,替换为空格。 如果在字符串的开头/结尾有匹配项,则可能会留下一个杂散空间,因此使用strip()
。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.