![](/img/trans.png)
[英]How can I use regular expression or any other method to sub a specific pattern of a string (python 2.7)?
[英]How can I use regular expression for unicode string in python?
嗨,我想在以下字符串中使用正则表达式unicode utf-8:
</td><td>عـــــــــــادي</td><td> 40.00</td>
我想选择"عـــــــــــادي"
,我该怎么做?
我的代码是:
state = re.findall(r'td>...</td',s)
谢谢
当我试图用俄语匹配一个字符串时,我碰到了类似的东西。 根据您的情况,Michele的答案很好。 但是,如果你想使用像\\w
和\\s
这样的特殊序列,你必须改变一些东西。 我只是分享这个,希望它对其他人有用。
>>> string = u"</td><td>Я люблю мороженое</td><td> 40.00</td>"
通过在引号前放置一个u
使字符串成为unicode
>>> pattern = re.compile(ur'>([\w\s]+)<', re.UNICODE)
将标志设置为unicode,以便它也匹配unicode字符串(请参阅docs )。
(或者,您可以使用当地语言设置范围。对于俄语,这将是[а-яА-Я]
,因此:
pattern = re.compile(ur'>([а-яА-Я\s]+)<')
在这种情况下,您不必再设置标志,因为您没有使用特殊序列。)
>>> match = pattern.findall(string)
>>> for i in match:
... print i
...
Я люблю мороженое
根据PEP 0264:定义Python源代码编码 ,首先你需要通过在第一行添加这样的注释来告诉Python整个源文件是UTF-8编码的:
# -*- coding: utf-8 -*-
此外,尝试在字符串之前添加“ ur ”,以便它是原始的 和 Unicode :
state = re.search(ur'td>([^<]+)</td',s)
res = state.group(1)
我还编辑了你的正则表达式以使其匹配。 三个点意味着“正好三个字符”,但由于您使用的是UTF-8,这是一个多字节编码,因此可能无法正常工作。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.