繁体   English   中英

如何在Unicode / UCS代码点和UTF16代理对之间转换?

[英]How to convert between a Unicode/UCS codepoint and a UTF16 surrogate pair?

如何在C ++ 14和更高版本中在Unicode / UCS代码点和UTF16代理对之间来回转换?

编辑:删除了对UCS-2替代的提及,因为没有这样的东西。 谢谢@ remy-lebeau

标签信息页说明了(比Unicode标准9.0在表3-5中的3.9中指定的更好),从代码点转换为代理对的算法如下:

基本多语言平面之外的Unicode字符(即代码大于0xFFFF的字符)通过UTF-16由称为代理对的16位代码对对通过以下方案编码:

  • 从代码点减去0x010000,剩下20位数字,范围为0..0x0FFFFF;
  • 前十位(0..0x03FF范围内的数字)被添加到0xD800,以给出第一个代码单元或高代理,其范围为0xD800..0xDBFF;
  • 将低十位(也位于0..0x03FF范围内)添加到0xDC00以提供第二个代码单元或低代理,其范围为0xDC00..0xDFFF。

在C ++ 14及更高版本中,可以这样写:

#include <cstdint>

using codepoint = std::uint32_t;
using utf16 = std::uint16_t;

struct surrogate {
    utf16 high; // Leading
    utf16 low;  // Trailing
};

constexpr surrogate split(codepoint const in) noexcept {
    auto const inMinus0x10000 = (in - 0x10000);
    surrogate const r{
            static_cast<utf16>((inMinus0x10000 / 0x400) + 0xd800), // High
            static_cast<utf16>((inMinus0x10000 % 0x400) + 0xdc00)}; // Low
    return r;
}

在相反的方向上,只需要将高代理的最后10位和低代理的最后10位组合起来,并加上0x10000

constexpr codepoint combine(surrogate const s) noexcept {
    return static_cast<codepoint>(
            ((s.high - 0xd800) * 0x400) + (s.low - 0xdc00) + 0x10000);
}

这是对这些转换的测试:

#include <cassert>

constexpr bool isValidUtf16Surrogate(utf16 v) noexcept
{ return (v & 0xf800) == 0xd800; }

constexpr bool isValidCodePoint(codepoint v) noexcept {
    return (v <= 0x10ffff)
        && ((v >= 0x10000) || !isValidUtf16Surrogate(static_cast<utf16>(v)));
}

constexpr bool isValidUtf16HighSurrogate(utf16 v) noexcept
{ return (v & 0xfc00) == 0xd800; }

constexpr bool isValidUtf16LowSurrogate(utf16 v) noexcept
{ return (v & 0xfc00) == 0xdc00; }

constexpr bool codePointNeedsUtf16Surrogates(codepoint v) noexcept
{ return (v >= 0x10000) && (v <= 0x10ffff); }

void test(codepoint const in) {
    assert(isValidCodePoint(in));
    assert(codePointNeedsUtf16Surrogates(in));
    auto const s = split(in);
    assert(isValidUtf16HighSurrogate(s.high));
    assert(isValidUtf16LowSurrogate(s.low));
    auto const out = combine(s);
    assert(isValidCodePoint(out));
    assert(in == out);
}

int main() {
    for (codepoint c = 0x10000; c <= 0x10ffff; ++c)
        test(c);
}

在C ++ 11和更高版本中,可以使用std::wstring_convert在以下各种std::codecvt类型之间进行各种UTF / UCS编码之间的转换:

您无需手动处理代理。

您可以使用std::u32string保留代码点,并使用std::u16string保留UTF-16 / UCS-2代码单元。

例如:

using convert_utf16_uf32 = std::wstring_convert<std::codecvt_utf16<char32_t>, char16_t>;

std::u16string CodepointToUTF16(const char32_t codepoint)
{
    const char32_t *p = &codepoint;
    return convert_utf16_uf32{}.from_bytes(
        reinterpret_cast<const char*>(p),
        reinterpret_cast<const char*>(p+1)
    );
}

std::u16string UTF32toUTF16(const std::u32string &str)
{
    return convert_utf16_uf32{}.from_bytes(
        reinterpret_cast<const char*>(str.data()),
        reinterpret_cast<const char*>(str.data()+str.size())
    );
}

char32_t UTF16toCodepoint(const std::u16string &str)
{
    std::string bytes = convert_utf16_uf32{}.to_bytes(str);
    return *(reinterpret_cast<const char32_t*>(bytes.data()));
}

std::u32string UTF16toUTF32(const std::u16string &str)
{
    std::string bytes = convert_utf16_uf32{}.to_bytes(str);
    return std::u32string(
       reinterpret_cast<const char32_t*>(bytes.data()),
       bytes.size() / sizeof(char32_t)
    );
}

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM