有没有办法知道Unicode字符串是否包含Python中的任何中文/日文字符？

Question

我在Python中有一个Unicode字符串。 我正在寻找一种方法来确定字符串中是否有任何中文/日文字符。 如果可能的话，能够找到这些角色会更好。

这似乎与语言检测问题有点不同。 我的字符串可以是英文和中文文本的混合。

我的代码可以访问Internet。

Answer 1

您可以使用Unicode Script属性来确定它们通常与哪些脚本相关联。

遗憾的是，Python的unicodedata模块没有这个属性。 但是，许多第三方模块（如unicodedata2和unicodescript都具有此信息。 您可以查询它们并检查Han脚本中是否有任何字符，对应于中文（和汉字和汉字）。

Answer 2

我在他的回答中尝试了nneonneo提到的Python的unicodedata模块，我认为它可能有效。

>>> import unicodedata
>>> unicodedata.name('你')
'CJK UNIFIED IDEOGRAPH-4F60'
>>> unicodedata.name('桜')
'CJK UNIFIED IDEOGRAPH-685C'
>>> unicodedata.name('あ')
'HIRAGANA LETTER A'
>>> unicodedata.name('ア')
'KATAKANA LETTER A'
>>> unicodedata.name('a')
'LATIN SMALL LETTER A'

如您所见，汉字和日文采用的汉字都被归类为CJK UNIFIED IDEOGRAPH并且平假名和片假名被正确识别。 我没有测试韩文字符，但我认为它们也应该属于CJK UNIFIED IDEOGRAPH 。

另外，如果你只关心它是否是一个CJK字符/字母，它似乎更简单：

>>> import unicodedata
>>> unicodedata.category('你')
'Lo'
>>> unicodedata.category('桜')
'Lo'
>>> unicodedata.category('あ')
'Lo'
>>> unicodedata.category('ア')
'Lo'
>>> unicodedata.category('a')
'Ll'
>>> unicodedata.category('A')
'Lu'

根据这里， Ll是小写， Lu是大写， Lo是其他。

Answer 3

您可以使用此正则表达式[\⺀-\鿿]来匹配CJK字符。

有没有办法知道Unicode字符串是否包含Python中的任何中文/日文字符？

问题描述

3 个解决方案

解决方案1
4 2013-04-16 02:04:48

解决方案2
3 2013-04-16 03:16:27

解决方案3
2 2013-04-16 02:00:42

有没有办法知道Unicode字符串是否包含Python中的任何中文/日文字符？

问题描述

3 个解决方案

解决方案1 4 2013-04-16 02:04:48

解决方案2 3 2013-04-16 03:16:27

解决方案3 2 2013-04-16 02:00:42

解决方案1
4 2013-04-16 02:04:48

解决方案2
3 2013-04-16 03:16:27

解决方案3
2 2013-04-16 02:00:42