如何将 unicode integer 转换为 utf-8 字符？

Question

我有一组 unicode 代码点存储为整数，我想将它们编码为 UTF-8。如果我理解正确，UTF-8 只是整数的编码（它特别用于 unicode 的事实并不是 UTF 的基础-8)，所以这应该只是在 UTF-8 编码中编码 integer 的问题。 是否有执行此操作的标准实用程序，如果没有，是否有手动执行此操作的简单方法？

Answer 1

有一个简单的方法。 如果您使用的是 windows，如果由于平台限制超过 UTF-16LE 字符，您可能会遇到问题。 在 linux 上，完整的 unicode 应该是安全的。

>>> my_unicode_codepoints = [1234, 2345, 3456, 4576] # example codepoints

>>> [chr(i) for i in unicode_codepoints] # step 1: use python automagic for casting to wide enough chars
['Ӓ', 'ऩ', '\u0d80', 'ᇠ']

>>> "".join([chr(i) for i in unicode_codepoints]) # step 2: join to string
'Ӓऩ\u0d80ᇠ'

>>> "".join([chr(i) for i in unicode_codepoints]).encode("utf-8") # step 3: encode your string
b'\xd3\x92\xe0\xa4\xa9\xe0\xb6\x80\xe1\x87\xa0'

最后一行是您要查找的结果。

Answer 2

这可能是不言自明的

[ord(c) for c in ('a', 'ö', '🤗')]
>>> [97, 246, 129303]

[chr(n) for n in [97, 246, 129303]]
>>>> ['a', 'ö', '🤗']

chr和ord都是内置函数。

如何将 unicode integer 转换为 utf-8 字符？

问题描述

2 个解决方案

解决方案1
3 已采纳 2022-05-05 19:03:02

解决方案2
0 2022-05-05 18:57:59

如何将 unicode integer 转换为 utf-8 字符？

问题描述

2 个解决方案

解决方案1 3 已采纳 2022-05-05 19:03:02

解决方案2 0 2022-05-05 18:57:59

解决方案1
3 已采纳 2022-05-05 19:03:02

解决方案2
0 2022-05-05 18:57:59