C ++通过utf-8值获取Unicode字符

Question

我对c ++不太满意，我正在尝试创建将URL编码的字符串转换为常规字符串的函数。

但是我得到的结果很奇怪，例如，％C4％93（十进制50323）应该是utf-8符号ē ，但是当我在控制台中打印时，却得到了ō 。 我试过了：

字符串+ = static_cast（character_integer_value）;
字符串+ =（char）character_integer_value;
字符串+ = character_integer_value;

但是这些都没有给我期望的输出。

你能指出我做错了什么吗？

std::string myUrldecode(const std::string& original) {
    std::string s = original;
    std::string tmp0 = "";
    int tmp1 = 0;
    int tmp2 = 0;
    std::string decoded = "";

    for (string::size_type i = s.find("%");
        i != string::npos;
        i = s.find("%"))
    {
        if(i > 0){
            decoded+= tmp0;
            tmp0 = "";
            tmp2 = 0;
        }
        decoded+= s.substr(0, i);
        s.erase(0, i);

        tmp0+= s.substr(0, 2);
        tmp1 = strtol(s.substr(1, 2).c_str(), nullptr, 16);

        if(tmp1 >= 20 && tmp1 < 127){
            decoded+= static_cast<char>(tmp1);
            s.erase(0, 3);
            tmp0 = "";
        }
        else if(tmp1 >= 192 && tmp1 < 223){
            tmp2 = tmp1;
            s.erase(0, 3);
        }
        else if(tmp1 >= 128 && tmp1 <= 191 && tmp2 > 192){
            tmp1+= tmp2 * 256;
            decoded+= tmp1;
            s.erase(0, 3);
            tmp0 = "";
        }
        else{
            s.erase(0, 3);
        }
    }
    decoded+= tmp0;
    decoded+= s;
    return decoded;
}

我正在使用带有GCC 4.9.2 32位的Dev-C ++ 5.11来编译该代码。

Answer 1

你完全错了。

“％C4％93” 是 ē的UTF-8编码，因此您只需要将数字（C4 + 93）转换为char 。 相反，您似乎担心127-192等字符范围。

我认为您编写的代码可能试图将Unicode代码点转换为UTF-8（275-> C493）。

C ++通过utf-8值获取Unicode字符

问题描述

1 个解决方案

解决方案1
0 已采纳 2016-02-12 15:27:36

C ++通过utf-8值获取Unicode字符

问题描述

1 个解决方案

解决方案1 0 已采纳 2016-02-12 15:27:36

解决方案1
0 已采纳 2016-02-12 15:27:36