[英]MSVC14 treats the u8 prefix differently depending on whether the source is UTF-8 or UTF-8 BOM
我在试验 UTF-8 和 Qt 时遇到了一个奇怪的问题,所以我进行了调查。 我创建了一个简单的程序,它在const char[]
文字中打印字节:
#include <cstdio>
const char* koshka = "кошка";
const char* utf8_koshka = u8"кошка";
void printhex(const char* str)
{
for (; *str; ++str)
{
printf("%02X ", *str & 0xFF);
}
puts("");
}
int main(int argc, char *argv[])
{
printhex(koshka);
printhex(utf8_koshka);
return 0;
}
如果我们使用 BOM 将文件保存为 UTF-8,然后从 Visual Studio 2015 运行它,将打印:
3F 3F 3F 3F 3F
D0 BA D0 BE D1 88 D0 BA D0 B0
虽然我不太明白第一个字符串是从哪里来的,但根据这个 UTF-8 编码表,第二个字符串应该是什么。
如果完全相同的代码保存为没有 BOM 的 UTF-8,则输出如下:
D0 BA D0 BE D1 88 D0 BA D0 B0
C3 90 C2 BA C3 90 C2 BE C3 91 CB 86 C3 90 C2 BA C3 90 C2 B0
因此,虽然它导致无前缀的const char[]
文字以 UTF8 u8
保存在二进制文件中,但由于某种原因,它破坏了u8
前缀。
但是,如果我们使用#pragma execution_character_set("utf-8")
强制执行字符集,则在两种情况下(带和不带 BOM 的 UTF-8 #pragma execution_character_set("utf-8")
,两个字符串都打印为D0 BA D0 BE D1 88 D0 BA D0 B0
。
我使用 Notepad++ 在编码之间进行转换。
到底是怎么回事?
编辑:
Alan 的回答解释了这种行为的原因,但我想补充一句警告。 我在使用 Qt Creator 开发 Qt 5.5.1 应用程序时遇到了这个问题。 在 5.5.1 中, QString (const char*)
构造函数将假定给定的字符串编码为 UTF-8,因此最终会调用QString::fromUtf8
来构造对象。 但是,Qt Creator(默认情况下)将每个文件都保存为 UTF,没有 BOM; 这会导致 MSVC 将源输入误解为 MBCS,这正是在这种情况下发生的情况,因此在默认设置下,以下内容将起作用:
QMessageBox::information(0, "test", "кошка");
这将失败(mojibake):
QMessageBox::information(0, "test", u8"кошка");
一个解决方案是在工具 -> 选项 -> 文本编辑器中启用 BOM。 请注意,这仅适用于 MSVC 2015(或实际上 14.0); 旧版本对 C++11 的支持较少/没有,而且u8
根本不存在,所以如果您在旧版本上使用 Qt,最好的办法是依靠编译器因缺少物料清单。
编译器不知道文件的编码是什么。 它试图通过查看输入的前缀来猜测。 如果它看到 UTF-8 编码的 BOM,则它假定它正在处理 UTF-8。 如果没有那个,也没有任何明显的 UTF-16 字符,它默认为其他东西。 (ISO 拉丁语 1?无论常见的本地 MBCS 是什么?)
如果没有 BOM,编译器将无法确定您的输入是 UTF-8 编码的,因此假设它不是。
然后它将 UTF-8 编码的每个字节视为单个字符; 对于简单的文字,它是逐字复制的,对于 u8 字符串,它被编码为 UTF-8,给出了你看到的双重编码。
唯一的解决方案似乎是强制 BOM; 或者,使用 UTF-16 这确实是 Windows 平台更喜欢的。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.