使用正则表达式从字符串中仅提取Unicode字符

Question

我想使用正则表达式从字符串中提取Unicode字符，从字符串或文本文件中删除ASCII，数字和特殊符号，是否可以使用正则表达式。 例如，我只希望从新闻文章中摘录文字的印地文或中文字符。

Answer 1

如上所述，ASCII是Unicode的一个子集，因此，这个问题没有什么意义。 如果您确实要从字符串中删除U+0080以下的所有代码点，那么很简单：

re.sub(r"[\x00-\x7f]+", "", mystring)

如果只想保留某些“列入白名单”的字符，则需要精确指定要保留的代码点。

例如，要保留梵文代码点（用于编写印地语），可以使用

re.sub(r"[^\u0900-\u097F]+", "", mystring)

或（Python 2，感谢@bobince的注意！）

re.sub(ur"[^\u0900-\u097F]+", "", mystring)

您确实需要确保正在处理Unicode字符串，所以请不要忘记对输入字符串进行解码/编码：

url = 'http://www.bhaskar.com/'
data = urllib2.urlopen(url).read().decode("utf-8-sig")
regex = re.compile(ur"[^\u0900-\u097F]+")
hindionly = regex.sub("foo", data)
print hindionly.encode("utf-8")

Answer 2

使用第三方正则表达式模块，您可以使用unicode脚本来表达模式：

import regex
print(repr(regex.sub(ur'[^\p{Devanagari}\p{Han}]', u'', u'abc123\u0900'))) 
# u'\u0900'

使用正则表达式从字符串中仅提取Unicode字符

问题描述

2 个解决方案

解决方案1
2 已采纳 2014-05-13 14:25:29

解决方案2
2 2014-05-13 15:34:33

使用正则表达式从字符串中仅提取Unicode字符

问题描述

2 个解决方案

解决方案1 2 已采纳 2014-05-13 14:25:29

解决方案2 2 2014-05-13 15:34:33

解决方案1
2 已采纳 2014-05-13 14:25:29

解决方案2
2 2014-05-13 15:34:33