在C ++中获取Unicode字符的CodePoint

Question

我想获取此字符串“عربى”中每个字符的代码点，因此我编写了此代码，但它始终输出63，这是问号字符“？”的代码点。

TCHAR   myString[50] = _T("عربى");
int stringLength=_tcslen(_T(myString));

for(int i=0;i<stringLength;i++)
{
   unsigned int number =myString[i];
   cout<<number<<endl;
}

有什么建议么？ :)

Answer 1

这里的代码仅使用标准库，并以32位宽的代码单元迭代字符串。 在最新的UTF-32中，它与代码点匹配。

using namespace std;
const auto str = u8"عربى";
wstring_convert<codecvt_utf8<char32_t>, char32_t> cv;
auto str32 = cv.from_bytes(str);
for(auto c : str32)
    cout << uint_least32_t(c) << '\n';

如果您的标准库尚未实现这些功能，则可能应使用外部库。

Answer 2

我复制了您的代码，并通过将_T(myString)强制转换为简单的myString来工作。 这是完整的程序。

#include <afxwin.h>

#include <iostream>

int main() {
    using namespace std;

    TCHAR   myString[50] = _T("عربى");
    int stringLength = _tcslen(myString); // <----- edit here

    for(int i=0;i<stringLength;i++)
    {
       unsigned int number =myString[i];
       cout<<number<<endl;
    }
}

输出：

在C ++中获取Unicode字符的CodePoint

问题描述

2 个解决方案

解决方案1
2 2014-08-08 12:07:54

解决方案2
1 已采纳 2014-08-08 11:28:30

在C ++中获取Unicode字符的CodePoint

问题描述

2 个解决方案

解决方案1 2 2014-08-08 12:07:54

解决方案2 1 已采纳 2014-08-08 11:28:30

解决方案1
2 2014-08-08 12:07:54

解决方案2
1 已采纳 2014-08-08 11:28:30