python正则表达式只保留以字母开头的单词并继续[a-zA-Z0-9]

Question

鉴于这段文字“hey a2a 3beauty hou \\ se heyYou2”，我想只保留以alphabeth开头并继续使用az，AZ或数字的单词。 所以这将是我想要的输出：“嘿a2a heyYou2”。

到目前为止我的解决方案通过text.split（）函数：

text = "hey a2a 3beauty hou\se heyYou2"
text = text.split()
text = [w for w in text if re.search(r"^[a-zA-Z][a-zA-Z0-9]*$", w) is not None]
' '.join(text)

Out[55]: 'hey a2a heyYou2'

有没有一种快速，高效的方法，我可以使用正则表达式实现这一点，而不将文本分成单词列表？

Answer 1

您可以使用以下正则表达式的单个re.sub调用：

\s*(?<!\S)(?![a-zA-Z][a-zA-Z0-9]*(?!\S))\S+

请参阅正则表达式演示

细节

\\s* - 0+空格
(?<!\\S) - 领先的空白边界
(?![a-zA-Z][a-zA-Z0-9]*(?!\\S)) - 如果在当前位置的右边，有一个未通过匹配的负前瞻
- [a-zA-Z] - 一封信
- [a-zA-Z0-9]* - 0个或更多个字母数字字符
- (?!\\S) - 尾随空白边界
\\S+ - 一个或多个非空白字符

Python代码演示：

import re
text = "hey a2a 3beauty hou\se heyYou2"
print(re.sub(r"\s*(?<!\S)(?![a-zA-Z][a-zA-Z0-9]*(?!\S))\S+", "", text))
# => hey a2a heyYou2

python正则表达式只保留以字母开头的单词并继续[a-zA-Z0-9]

问题描述

1 个解决方案

解决方案1
3 已采纳 2018-11-01 10:29:59

python正则表达式只保留以字母开头的单词并继续[a-zA-Z0-9]

问题描述

1 个解决方案

解决方案1 3 已采纳 2018-11-01 10:29:59

解决方案1
3 已采纳 2018-11-01 10:29:59