[英]Handling UTF-8 encoded strings between std::wstring and std::string
[英]Convert wstring to string encoded in UTF-8
我需要在 wstring 和 string 之間進行轉換。 我發現,使用 codecvt facet 應該可以解決問題,但它似乎不適用於 utf-8 語言環境。
我的想法是,當我將 utf-8 編碼文件讀取為字符時,一個 utf-8 字符被讀入兩個普通字符(這就是 utf-8 的工作原理)。 我想從我在代碼中使用的庫的 wstring 表示創建這個 utf-8 字符串。
有人知道怎么做嗎?
我已經嘗試過了:
locale mylocale("cs_CZ.utf-8");
mbstate_t mystate;
wstring mywstring = L"čřžýáí";
const codecvt<wchar_t,char,mbstate_t>& myfacet =
use_facet<codecvt<wchar_t,char,mbstate_t> >(mylocale);
codecvt<wchar_t,char,mbstate_t>::result myresult;
size_t length = mywstring.length();
char* pstr= new char [length+1];
const wchar_t* pwc;
char* pc;
// translate characters:
myresult = myfacet.out (mystate,
mywstring.c_str(), mywstring.c_str()+length+1, pwc,
pstr, pstr+length+1, pc);
if ( myresult == codecvt<wchar_t,char,mbstate_t>::ok )
cout << "Translation successful: " << pstr << endl;
else cout << "failed" << endl;
return 0;
對於 cs_CZ.utf-8 語言環境返回“失敗”,並且對於 cs_CZ.iso8859-2 語言環境正常工作。
下面的代碼可能會幫助你:)
#include <codecvt>
#include <string>
// convert UTF-8 string to wstring
std::wstring utf8_to_wstring (const std::string& str)
{
std::wstring_convert<std::codecvt_utf8<wchar_t>> myconv;
return myconv.from_bytes(str);
}
// convert wstring to UTF-8 string
std::string wstring_to_utf8 (const std::wstring& str)
{
std::wstring_convert<std::codecvt_utf8<wchar_t>> myconv;
return myconv.to_bytes(str);
}
你的平台是什么? 請注意,Windows不支持UTF-8語言環境,因此這可以解釋您失敗的原因。
要以平台相關的方式完成此操作,您可以在Windows上使用MultiByteToWideChar / WideCharToMultiByte ,在Linux上使用iconv 。 您可以使用一些提升魔法以獨立於平台的方式完成此操作,但我自己沒有嘗試過,因此我無法添加此選項。
您可以使用boost的utf_to_utf轉換器來獲取存儲在std :: string中的char格式。
std::string myresult = boost::locale::conv::utf_to_utf<char>(my_wstring);
在 Windows 上,您必須使用 std::codecvt_utf8_utf16<wchar_t>。 否則,在需要兩個 16 位代碼單元的 Unicode 代碼點上,您的轉換將失敗。 喜歡 (U+1F609)
#include <codecvt>
#include <string>
// convert UTF-8 string to wstring
std::wstring utf8_to_wstring (const std::string& str)
{
std::wstring_convert<std::codecvt_utf8_utf16<wchar_t>> myconv;
return myconv.from_bytes(str);
}
// convert wstring to UTF-8 string
std::string wstring_to_utf8 (const std::wstring& str)
{
std::wstring_convert<std::codecvt_utf8_utf16<wchar_t>> myconv;
return myconv.to_bytes(str);
}
區域設置的作用是它為程序提供有關外部編碼的信息,但假設內部編碼沒有改變。 如果要輸出UTF-8,則需要從wchar_t
而不是char*
。
您可以做的是將其作為原始數據(而不是字符串)輸出,如果系統區域設置是UTF-8,則應該正確解釋它。
另外,當使用(w)cout
/ (w)cerr
/ (w)cin
您需要在流上填充區域設置。
Lexertl庫有一個迭代器,可以讓你這樣做:
std::string str;
str.assign(
lexertl::basic_utf8_out_iterator<std::wstring::const_iterator>(wstr.begin()),
lexertl::basic_utf8_out_iterator<std::wstring::const_iterator>(wstr.end()));
C ++不知道Unicode。 使用外部庫,如ICU( UnicodeString
類 )或Qt( QString
類 ),都支持Unicode,包括UTF-8。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.