僅刪除連續的特殊字符，但保留連續的 [a-zA-Z0-9] 和單個字符

Question

如何刪除字符串中所有特殊字符的多個連續出現？

我可以得到這樣的代碼：

re.sub('\.\.+',' ',string)
re.sub('@@+',' ',string)
re.sub('\s\s+',' ',string)

對於個人和最好的情況，對列表中的所有字符使用循環，例如：

from string import punctuation

for i in punctuation:
    to = ('\\' + i + '\\' + i + '+')
    string = re.sub(to, ' ', string)

但我相信也有一種有效的方法。

我試過：

re.sub('[^a-zA-Z0-9][^a-zA-Z0-9]+', ' ', '\n\n.AAA.x.@@+*@#=..xx000..x..\t.x..\nx*+Y.')

但它會刪除所有特殊字符，但前面有字母的字符除外。

字符串可以有不同的連續特殊字符，如99@aaaa*!@#$. 但與++--...不一樣。

Answer 1

在 Python 中匹配所有非字母數字字符的模式是[\\W_] 。

因此，您所需要的只是用捕獲組包裝模式並在其后添加\\1+以匹配 2 個或多個連續出現的相同非字母數字字符：

text = re.sub(r'([\W_])\1+',' ',text)

在 Python 3.x 中，如果您希望模式僅re.A ASCII，請使用re.A或re.ASCII標志：

text = re.sub(r'([\W_])\1+',' ',text, flags=re.A)

注意使用定義原始字符串文字的r前綴（這樣您就不必轉義\\ char）。

請參閱正則表達式演示。 請參閱Python 演示：

import re
text = "\n\n.AAA.x.@@+*@#=..xx000..x..\t.x..\nx*+Y."
print(re.sub(r'([\W_])\1+',' ',text))

輸出：

 .AAA.x. +*@#= xx000 x  .x 
x*+Y.