繁体   English   中英

您如何在python中编写正则表达式,以查找仅包含字母,数字和下划线的所有单词?

[英]How do you write a regex in python that finds all word which contain only letters, numbers and underscore?

这是我能想到的最好的方法:

b = re.findall(r'\b[a-zA-Z0-9_]\b', 'ahz2gb_ $f heyght78_')

但这是行不通的。 另外,不是我目前只对正则表达式感兴趣。 我可以解决很长的路要走的问题。

预期结果是一个包含[ahz2gb_,heyght78_]的列表

\\w来捕获这些字符,并且您需要使用+允许多个字符:

b = re.findall(r'\b\w+\b', 'ahz2gb_ $f heyght78_')

由于+是贪婪的,因此您实际上也不需要\\b

b = re.findall(r'\w+', 'ahz2gb_ $f heyght78_')

如果您只需要用空格(而不是\\b )来分隔单词,则可以使用环顾四周:

b = re.findall(r'(?<!\S)\w+(?!\S)', 'ahz2gb_ $f heyght78_')

(?<!序列的意思是:回头看看您没有后面的模式(?<!在目标字符串中当前匹配位置的前面。因此,在这种情况下(?<!\\S)意思是:不能是前面的非空白字符。

然后(?!是相似的,但是期待(不匹配)。

正则表达式很容易理解。

  • ^[0-9a-zA-Z_]+$ :严格由数字,字母和下划线组成
  • ^[0-9a-zA-Z_ ]+$ :严格由数字,字母,下划线和空格组成

如果您需要匹配行中的单词,则可以使用空格作为分隔符来溢出。

您可以在http://pythex.org/上在线尝试python regex

在IDLE上运行示例

>>> import re
>>> re.findall(r'^[a-zA-Z0-9_ ]+$', 'ahz2gb_ f heyght78_')[0].split(' ')
['ahz2gb_', 'f', 'heyght78_']

EDIT :给出了只具有单词的新要求,这就是您可以实现的条件。

import re
mylist =  'ahz2gb_ $f heyght78_'.split(' ')
r = re.compile("^[0-9a-zA-Z_]+$")
newlist = list(filter(r.match, mylist))
print(newlist)

希望,我可以缩短它!

样品运行

========= RESTART: C:/regex.py =========
['ahz2gb_', 'heyght78_']

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM