如何检查是否分配了 Unicode 代码点？

Question

我正在使用 Python 3 并且我知道所有关于hex ， int ， chr ， ord ， '\\uxxxx'转义和'\\U00xxxxxx'转义和 Unicode 有 1114111 代码点...

如何检查 Unicode 代码点是否有效？ 也就是说，它被明确地映射到权威定义的字符。

例如，代码点 720 是有效的； 它是十六进制的 0x2d0，U+02D0 指向ː ：

In [135]: hex(720)
Out[135]: '0x2d0'

In [136]: '\u02d0'
Out[136]: 'ː'

888 无效：

In [137]: hex(888)
Out[137]: '0x378'

In [138]: '\u0378'
Out[138]: '\u0378'

并且 127744 是有效的：

In [139]: chr(127744)
Out[139]: '🌀'

并且 0xe0000 无效：

In [140]: '\U000e0000'
Out[140]: '\U000e0000'

我提出了一个相当棘手的解决方案：如果代码点有效，尝试将其转换为字符将导致解码字符或'\\xhh'转义序列，否则它将返回与完全相同的未解码转义序列原来，我可以检查chr的返回值并检查它是否以'\\u\u0026#39;或'\\U'开头...

现在是hacky部分， chr不会解码无效的代码点，但它也不会引发异常，并且转义序列的长度为1，因为它们被视为单个字符，我必须repr返回值并检查结果...

我已经使用这种方法来识别所有无效的代码点：

In [130]: invalid = []

In [131]: for i in range(1114112):
     ...:     if any(f'{chr(i)!r}'.startswith(j) for j in ("'\\U", "'\\u")):
     ...:         invalid.append(i)

In [132]: from pathlib import Path

In [133]: invalid = [(hex(i).removeprefix('0x'), i) for i in invalid]

In [134]: Path('D:/invalid_unicode.txt').write_text(',\n'.join(map(repr, invalid)))
Out[134]: 18574537

谁能提供更好的解决方案？

Answer 1

我认为unicodedata.name()有点像你想要的。

Answer 2

我相信最直接的方法是使用unicodedata.category() ：未分配的代码点的类别为Cn （“其他，未分配”）。

它也适用于 ASCII 范围内的控制字符：

>>> import unicodedata as ud
>>> ud.category('\x00')
'Cc'
>>> ud.category('\u02d0')
'Lm'
>>> ud.category('\u0378')  # unassigned
'Cn'
>>> ud.category(chr(127744))
'So'
>>> ud.category('\U000e0000')  # unassigned
'Cn'

重要警告： Python 的unicodedata模块嵌入了特定版本的 Unicode，因此信息可能已经过时。 例如，在我安装的 Python 3.8 中，Unicode 版本是 12.1.0，因此它不知道在更高版本的 Unicode 中分配的代码点：

>>> ud.unidata_version
'12.1.0'
>>> ud.category('\U0001fae0')  # melting face emoji added in Unicode v14
'Cn'

如果您需要比 Python 版本更新的 Unicode 版本，您可能需要直接从 Unicode 获取适当的表。

Answer 3

您可能希望使用独立于 Python 核心 Unicode 数据库的unicode-charnames库。 此软件包支持 Unicode 标准 14.0 版（2021 年 9 月 14 日发布）。

from unicode_charnames import charname, UNICODE_VERSION

assigned = []
control = []
private_use = []
surrogate = []
noncharacter = []
reserved = []
for x in range(0x110000):
    name = charname(chr(x))
    if not name.startswith("<"):  # code points assigned to an abstract character
        assigned.append(x)
    elif name.startswith("<control"):
        control.append(x)
    elif name.startswith("<private"):
        private_use.append(x)
    elif name.startswith("<surrogate"):
        surrogate.append(x)
    elif name.startswith("<noncharacter"):
        noncharacter.append(x)
    else:
        reserved.append(x)

print(f"# Unicode {UNICODE_VERSION}")
print(f"Code points assigned to an abstract character: {len(assigned):,}")
print(f"Unassigned code points: {len(reserved):,}")
print( "Code points with a normative function:")
print(f"   Control characters     -> {len(control):>7,}")
print(f"   Private-use characters -> {len(private_use):>7,}")
print(f"   Surrogate characters   -> {len(surrogate):>7,}")
print(f"   Noncharacters          -> {len(noncharacter):>7,}")

输出：

# Unicode 14.0.0
Code points assigned to an abstract character: 144,697
Unassigned code points: 829,768
Code points with a normative function:
   Control characters     ->      65
   Private-use characters -> 137,468
   Surrogate characters   ->   2,048
   Noncharacters          ->      66

您需要的文件是DerivedName.txt ，可在 Unicode 字符数据库 (UCD) 中找到。 可以在此处找到 14.0 版的文件。

如何检查是否分配了 Unicode 代码点？

问题描述

3 个解决方案

解决方案1
1 已采纳 2021-10-30 09:13:57

解决方案2
0 2021-10-30 18:04:20

解决方案3
0 2021-11-01 21:35:43

如何检查是否分配了 Unicode 代码点？

问题描述

3 个解决方案

解决方案1 1 已采纳 2021-10-30 09:13:57

解决方案2 0 2021-10-30 18:04:20

解决方案3 0 2021-11-01 21:35:43

解决方案1
1 已采纳 2021-10-30 09:13:57

解决方案2
0 2021-10-30 18:04:20

解决方案3
0 2021-11-01 21:35:43