繁体 English 中英

utf16字符串的长度为utf8字符串

[英]Length of a utf16 string as a utf8 string

原文 2016-03-26 03:52:36 7 1 c++/ unicode

我有一个utf16 wchar_t *我需要转换并转储到utf8 char *。 我正在使用std :: wcstombs来执行此操作，并使用wchar_t *的长度作为最大长度。

我在utf编码的工作方式上有点模糊，但IIRC，单个字符可能会占用多个字节，在这种情况下我可能会丢失一些字符。

目前可能出现的字符非常有限，甚至可能适合ASCII字符集，但后来，我打算允许更多，例如öäõü等。 我会在那里遇到问题吗？ 如果是这样，我将如何测量我需要分配的缓冲区的长度？

1 个解决方案

BMP中的代码点（“基本多语言平面”，即其值不大于0xFFFF的代码点）需要一个UTF-16代码单元或最多三个UTF-8代码单元。 在BMP之外，代码点需要两个UTF-16代码单元（代理对）或四个UTF-8代码单元。

如果你的wchar_t是两个字节（UTF-16），在最坏的情况下，UTF-8字符串可能需要三个字节用于单个wchar_t（即内存增加50％），并且4个字节用于代理对（即相同数量的记忆）。

但是，如果你的wchar_t是四个字节（UTF-32），非BMP字符只需要一个wchar_t，所以最坏的情况是每个wchar_t有四个字节，这是相同的内存量。

每个wchar_t只允许一个字节肯定会让你遇到麻烦。 只有在基本ASCII字符集之外没有字符时才能使用。

在C ++中将UTF8字符串转换为UTF16字符串

[英]convert a UTF8 string to a UTF16 string in c++

将 utf16 宽 std::wstring 转换为 utf8 窄 std::string 以获取稀有字符时出现问题

[英]Issue when converting utf16 wide std::wstring to utf8 narrow std::string for rare characters

如何将utf16 ushort数组转换为utf8 std :: string？

[英]How to convert a utf16 ushort array to a utf8 std::string?

我需要十六进制字符串的 UTF8 编码表示，而不是 UTF16

[英]I need UTF8 encoded representation of a hex string, not UTF16

utf8和utf16转换

[英]utf8 and utf16 conversion

为什么在winapi中转换UTF16 - > UTF8 - > UTF16后，filename有不同的字节？

[英]Why filename has different bytes after converting UTF16 -> UTF8 -> UTF16 in winapi?

如何从 UTF16 编码的字符串中获取解码后的字符串

[英]How to get decoded String from UTF16 encoded String

utf8 < - > utf16：codecvt性能不佳

[英]utf8 <-> utf16: codecvt poor performance

寻找将UTF8转换为UTF16的算法的描述

[英]Looking for the description of the algorithm to convert UTF8 to UTF16

使用iconv从C ++ UTF8到UTF16 Linux

[英]C++ UTF8 to UTF16 Linux using iconv

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 在C ++中将UTF8字符串转换为UTF16字符串将 utf16 宽 std::wstring 转换为 utf8 窄 std::string 以获取稀有字符时出现问题如何将utf16 ushort数组转换为utf8 std :: string？我需要十六进制字符串的 UTF8 编码表示，而不是 UTF16 utf8和utf16转换为什么在winapi中转换UTF16 - > UTF8 - > UTF16后，filename有不同的字节？如何从 UTF16 编码的字符串中获取解码后的字符串 utf8 < - > utf16：codecvt性能不佳寻找将UTF8转换为UTF16的算法的描述使用iconv从C ++ UTF8到UTF16 Linux

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM