繁体   English   中英

Utf-8到URI百分比编码

[英]Utf-8 to URI percent encoding

我正在尝试将Unicode代码点转换为百分比编码的UTF-8代码单元。

Unicode - > UTF-8转换似乎工作正常,正如一些使用印地语和中文字符的测试所示,它们在带有UTF-8编码的Notepad ++中正确显示,并且可以正确地翻译回来。

我认为百分比编码就像在每个UTF-8代码单元前添加'%'一样简单,但这并不是很有效。 而不是预期的%E5%84%A3 ,我看到%xE5%x84%xA3 (对于unicode U + 5123)。

在此输入图像描述

我究竟做错了什么?

添加了代码(请注意,utf8.h属于UTF8-CPP库)。

#include <fstream>
#include <iostream>
#include <vector>
#include "utf8.h"

std::string unicode_to_utf8_units(int32_t unicode)
{
    unsigned char u[5] = {0,0,0,0,0};
    unsigned char *iter = u, *limit = utf8::append(unicode, u);
    std::string s;
    for (; iter != limit; ++iter) {
        s.push_back(*iter);
    }
    return s;
}

int main()
{
    std::ofstream ofs("test.txt", std::ios_base::out);
    if (!ofs.good()) {
        std::cout << "ofstream encountered a problem." << std::endl;
        return 1;
    }

    utf8::uint32_t unicode = 0x5123;
    auto s = unicode_to_utf8_units(unicode);
    for (auto &c : s) {
        ofs << "%" << c;
    }

    ofs.close();

    return 0;
}

实际上,您需要将字节值转换为相应的ASCII字符串,例如:

UTF-8中的"é"是值{ 0xc3, 0xa9 } 请注意,这些是C ++中的字节, char值。

每个字节需要分别转换为: "%C3""%C9"

最好的方法是使用sstream

std::ostringstream out;
std::string utf8str = "\xE5\x84\xA3";

for (int i = 0; i < utf8str.length(); ++i) {
    out << '%' << std::hex << std::uppercase << (int)(unsigned char)utf8str[i];
}

或者在C ++ 11中:

for (auto c: utf8str) {
    out << '%' << std::hex << std::uppercase << (int)(unsigned char)c;
}

请注意,需要将字节转换为int ,否则<<运算符将使用litteral二进制值。 首先需要转换为unsigned char ,否则,符号位将传播到int值,从而导致输出负值,如FFFFFFE5

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM