將 wstring 轉換為 UTF-8 編碼的字符串

Question

我需要在 wstring 和 string 之間進行轉換。 我發現，使用 codecvt facet 應該可以解決問題，但它似乎不適用於 utf-8 語言環境。

我的想法是，當我將 utf-8 編碼文件讀取為字符時，一個 utf-8 字符被讀入兩個普通字符（這就是 utf-8 的工作原理）。 我想從我在代碼中使用的庫的 wstring 表示創建這個 utf-8 字符串。

有人知道怎么做嗎？

我已經嘗試過了：

  locale mylocale("cs_CZ.utf-8");
  mbstate_t mystate;

  wstring mywstring = L"čřžýáí";

  const codecvt<wchar_t,char,mbstate_t>& myfacet =
    use_facet<codecvt<wchar_t,char,mbstate_t> >(mylocale);

  codecvt<wchar_t,char,mbstate_t>::result myresult;  

  size_t length = mywstring.length();
  char* pstr= new char [length+1];

  const wchar_t* pwc;
  char* pc;

  // translate characters:
  myresult = myfacet.out (mystate,
      mywstring.c_str(), mywstring.c_str()+length+1, pwc,
      pstr, pstr+length+1, pc);

  if ( myresult == codecvt<wchar_t,char,mbstate_t>::ok )
   cout << "Translation successful: " << pstr << endl;
  else cout << "failed" << endl;
  return 0;

對於 cs_CZ.utf-8 語言環境返回“失敗”，並且對於 cs_CZ.iso8859-2 語言環境正常工作。

Answer 1

下面的代碼可能會幫助你:)

#include <codecvt>
#include <string>

// convert UTF-8 string to wstring
std::wstring utf8_to_wstring (const std::string& str)
{
    std::wstring_convert<std::codecvt_utf8<wchar_t>> myconv;
    return myconv.from_bytes(str);
}

// convert wstring to UTF-8 string
std::string wstring_to_utf8 (const std::wstring& str)
{
    std::wstring_convert<std::codecvt_utf8<wchar_t>> myconv;
    return myconv.to_bytes(str);
}

Answer 2

你的平台是什么？ 請注意，Windows不支持UTF-8語言環境，因此這可以解釋您失敗的原因。

要以平台相關的方式完成此操作，您可以在Windows上使用MultiByteToWideChar / WideCharToMultiByte ，在Linux上使用iconv 。 您可以使用一些提升魔法以獨立於平台的方式完成此操作，但我自己沒有嘗試過，因此我無法添加此選項。

Answer 3

您可以使用boost的utf_to_utf轉換器來獲取存儲在std :: string中的char格式。

std::string myresult = boost::locale::conv::utf_to_utf<char>(my_wstring);

Answer 4

在 Windows 上，您必須使用 std::codecvt_utf8_utf16<wchar_t>。 否則，在需要兩個 16 位代碼單元的 Unicode 代碼點上，您的轉換將失敗。 喜歡 (U+1F609)

#include <codecvt>
#include <string>

// convert UTF-8 string to wstring
std::wstring utf8_to_wstring (const std::string& str)
{
    std::wstring_convert<std::codecvt_utf8_utf16<wchar_t>> myconv;
    return myconv.from_bytes(str);
}

// convert wstring to UTF-8 string
std::string wstring_to_utf8 (const std::wstring& str)
{
    std::wstring_convert<std::codecvt_utf8_utf16<wchar_t>> myconv;
    return myconv.to_bytes(str);
}

Answer 5

區域設置的作用是它為程序提供有關外部編碼的信息，但假設內部編碼沒有改變。 如果要輸出UTF-8，則需要從wchar_t而不是char* 。

您可以做的是將其作為原始數據（而不是字符串）輸出，如果系統區域設置是UTF-8，則應該正確解釋它。

另外，當使用(w)cout / (w)cerr / (w)cin您需要在流上填充區域設置。

Answer 6

Lexertl庫有一個迭代器，可以讓你這樣做：

std::string str;
str.assign(
  lexertl::basic_utf8_out_iterator<std::wstring::const_iterator>(wstr.begin()),
  lexertl::basic_utf8_out_iterator<std::wstring::const_iterator>(wstr.end()));

Answer 7

C ++不知道Unicode。 使用外部庫，如ICU（ UnicodeString類）或Qt（ QString類），都支持Unicode，包括UTF-8。

將 wstring 轉換為 UTF-8 編碼的字符串

問題描述

7 個解決方案

解決方案1
71 2012-10-15 21:00:03

解決方案2
4 2010-12-05 17:51:56

解決方案3
0 2019-02-16 00:33:33

解決方案4
0 2022-08-19 06:57:26

解決方案5
-1 2010-12-05 13:23:48

解決方案6
-2 2012-07-26 22:54:56

解決方案7
-11 已采納 2010-12-05 13:34:23

將 wstring 轉換為 UTF-8 編碼的字符串

問題描述

7 個解決方案

解決方案1 71 2012-10-15 21:00:03

解決方案2 4 2010-12-05 17:51:56

解決方案3 0 2019-02-16 00:33:33

解決方案4 0 2022-08-19 06:57:26

解決方案5 -1 2010-12-05 13:23:48

解決方案6 -2 2012-07-26 22:54:56

解決方案7 -11 已采納 2010-12-05 13:34:23

解決方案1
71 2012-10-15 21:00:03

解決方案2
4 2010-12-05 17:51:56

解決方案3
0 2019-02-16 00:33:33

解決方案4
0 2022-08-19 06:57:26

解決方案5
-1 2010-12-05 13:23:48

解決方案6
-2 2012-07-26 22:54:56

解決方案7
-11 已采納 2010-12-05 13:34:23