繁体   English   中英

如何在python中替换字符串中的非字母和数字字符

[英]How to replace non-alphabetic AND numeric characters in a string in python

我理解,要替换字符串中的非字母数字字符,代码如下:

words = re.sub("[^\w]", " ",  str).split()

但是, ^\\w替换非字母数字字符。 我想在字符串中替换非字母和数字字符,如:

"baa!!!!! baa sheep23? baa baa"

我希望它有这样的结果:

 "baa baa sheep baa baa"

如果我做words = re.sub("[^\\w\\d]", " ", str).split() ,我得到一个数字字符的结果,如'sheep23' 我想这可能是因为"^"也会影响\\d ,并且它就好像我想要删除非数字字符一样。 我该怎么做?

使用str.translate

>>> from string import punctuation, digits
>>> s = "baa!!!!! baa sheep23? baa baa"
>>> s.translate(None, punctuation+digits)
'baa baa sheep baa baa'

这里不需要做正则表达式,只需简单的理解即可:

>>> import string
>>> word = "baa!!!!! baa sheep23? baa baa"
>>> "".join([l for l in word if l in string.ascii_letters+string.whitespace])
'baa baa sheep baa baa'

试试这个正则表达式:

[^a-zA-Z]

这匹配任何不是字母的东西。

或者如果你想保留空格:

[^ A-ZA-Z \\ s]的

那个正则表达式怎么样?

[^\w]|\d

编辑:

正如@Avinash所说,这不会删除_ 如果你想要删除_使用:

[^\w]|[\d_]

如果您还想用一个替换多个空格,请使用:

([^\w]|[\d_])+

这是添加下划线的示例:

In [1]: import re

In [2]: s = "baa!!!!! baa sheep23? baa baa___"

In [3]: re.sub("([^\w]|[\d_])+", " ",  s)
Out[3]: 'baa baa sheep baa baa '

In [4]: re.sub("([^\w]|[\d_])+", " ",  s).split()
Out[4]: ['baa', 'baa', 'sheep', 'baa', 'baa']

通过re.sub函数,

>>> s = "baa!!!!! baa sheep23? baa baa"
>>> m = re.sub(r'[^A-Za-z ]', "", s)
>>> m
'baa baa sheep baa baa'

而不是用空格替换每个非字母然后拆分你可以一次完成所有操作:

>>> re.split("[^a-zA-Z]+", "baa!!!!! baa sheep23? baa baa")
['baa', 'baa', 'sheep', 'baa', 'baa']

[^\\w]相当于[^a-zA-Z0-9_] (模数语言设置),你需要只在你的角色类中保留你想要的东西 - 而[^a-zA-Z]显然包含空格。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM