C++ 將 UTF-8 字符串迭代或拆分為符號數組？

Question

搜索與平台和第 3 方庫無關的迭代 UTF-8 字符串或將其拆分為 UTF-8 符號數組的方法。

請發布代碼片段。

Answer 1

如果我理解正確，聽起來您想找到每個 UTF-8 字符的開頭。 如果是這樣，那么解析它們將相當簡單（解釋它們是另一回事）。 但是涉及多少個八位字節的定義由RFC明確定義：

Char. number range  |        UTF-8 octet sequence
   (hexadecimal)    |              (binary)
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

例如，如果lb具有 UTF-8 字符的第一個八位字節，我認為以下將確定所涉及的八位字節數。

unsigned char lb;

if (( lb & 0x80 ) == 0 )          // lead bit is zero, must be a single ascii
   printf( "1 octet\n" );
else if (( lb & 0xE0 ) == 0xC0 )  // 110x xxxx
   printf( "2 octets\n" );
else if (( lb & 0xF0 ) == 0xE0 ) // 1110 xxxx
   printf( "3 octets\n" );
else if (( lb & 0xF8 ) == 0xF0 ) // 1111 0xxx
   printf( "4 octets\n" );
else
   printf( "Unrecognized lead byte (%02x)\n", lb );

不過，最終，按照另一篇文章中的建議，使用現有庫會好得多。 上面的代碼可能會根據八位字節對字符進行分類，但是一旦完成，它就無助於對它們“做”任何事情。

Answer 2

使用與平台無關的微型UTF8 CPP庫解決：

    char* str = (char*)text.c_str();    // utf-8 string
    char* str_i = str;                  // string iterator
    char* end = str+strlen(str)+1;      // end iterator

    do
    {
        uint32_t code = utf8::next(str_i, end); // get 32 bit code of a utf-8 symbol
        if (code == 0)
            continue;

        unsigned char[5] symbol = {0};
        utf8::append(code, symbol); // copy code to symbol

        // ... do something with symbol
    }
    while ( str_i < end );

Answer 3

UTF8 CPP正是你想要的

Answer 4

試試ICU 圖書館。

Answer 5

袖口外：

// Return length of s converted. On success return should equal s.length().
// On error return points to the character where decoding failed.
// Remember to check the success flag since decoding errors could occur at
// the end of the string
int convert(std::vector<int>& u, const std::string& s, bool& success) {
    success = false;
    int cp = 0;
    int runlen = 0;
    for (std::string::const_iterator it = s.begin(), end = s.end(); it != end; ++it) {
        int ch = static_cast<unsigned char>(*it);
        if (runlen > 0) {
            if ((ch & 0xc0 != 0x80) || cp == 0) return it-s.begin();
            cp = (cp << 6) + (ch & 0x3f);
            if (--runlen == 0) {
                u.push_back(cp);
                cp = 0;
            }
        }
        else if (cp == 0) {
            if (ch < 0x80)      { u.push_back(ch); }
            else if (ch > 0xf8) return it-s.begin();
            else if (ch > 0xf0) { cp = ch & 7; runlen = 3; }
            else if (ch > 0xe0) { cp = ch & 0xf; runlen = 2; }
            else if (ch > 0xc0) { cp = ch & 0x1f; runlen = 1; }
            else return it-s.begin(); // stop on error
        }
        else return it-s.begin();
    }
    success = runlen == 0; // verify we are between codepoints
    return s.length();
}

C++ 將 UTF-8 字符串迭代或拆分為符號數組？

問題描述

5 個解決方案

解決方案1
30 2010-05-17 21:34:14

解決方案2
13 已采納 2010-05-18 10:10:22

解決方案3
2 2010-05-17 23:47:06

解決方案4
1 2010-05-17 21:26:38

解決方案5
0 2010-05-17 22:22:18

C++ 將 UTF-8 字符串迭代或拆分為符號數組？

問題描述

5 個解決方案

解決方案1 30 2010-05-17 21:34:14

解決方案2 13 已采納 2010-05-18 10:10:22

解決方案3 2 2010-05-17 23:47:06

解決方案4 1 2010-05-17 21:26:38

解決方案5 0 2010-05-17 22:22:18

解決方案1
30 2010-05-17 21:34:14

解決方案2
13 已采納 2010-05-18 10:10:22

解決方案3
2 2010-05-17 23:47:06

解決方案4
1 2010-05-17 21:26:38

解決方案5
0 2010-05-17 22:22:18