[英]how to detect non-ascii characters in C++ Windows?
我只是想在 Windows 上的 C++ 程序中检测非 ascii 字符。 使用类似isascii()
或:
bool is_printable_ascii = (ch & ~0x7f) == 0 &&
(isprint() || isspace()) ;
不起作用,因为在getchar()
执行其操作之前或期间将非 ascii 字符映射到 ascii 字符。 例如,如果我有一些代码,例如:
#include <iostream>
using namespace std;
int main()
{
int c;
c = getchar();
cout << isascii(c) << endl;
cout << c << endl;
printf("0x%x\n", c);
cout << (char)c;
return 0;
}
并输入一个(因为我现在很高兴),output 是
1
63
0x3f
?
此外,如果我为程序提供一些东西(在扩展的 ascii 范围(代码页 437)之外),比如“Ĥ”,我会得到 output
1
72
0x48
H
这适用于类似的输入,例如Ĭ或ō(转到I和o)。 所以这似乎是算法,而不仅仅是 mojibake 之类的。 使用类似的程序快速检查 python(通过同一终端)
i = input()
print(ord(i))
给了我预期的实际十六进制代码,而不是 ascii 映射的代码(所以它不是代码页或终端(?))。 这让我相信getchar()
或 C++ 编译器(在 VS 编译器和 g++ 上测试)正在做一些时髦的事情。 我也尝试过使用cin
和许多其他替代方法。 请注意,我已在 Linux 上尝试过此操作,但我无法重现此问题,这让我倾向于认为这与 Windows(10 专业版)有关。 谁能解释这里发生了什么?
尝试用 getwchar() 替换getchar()
getwchar();
我认为你是对的,这是一个仅限 Windows 的问题。
我认为问题在于getchar();
期望输入为char
类型,它是 8 位并且仅支持 ASCII。 getwchar();
支持允许其他文本编码的wchar_t
类型。 "" 不是 ASCII,从这个页面: https://docs.microsoft.com/en-us/windows/win32/learnwin32/working-with-strings ,似乎 Windows 用 UTF-编码这样的扩展字符16. 我在查找 utf-16 表情符号的查找表时遇到了麻烦,但我猜测 utf-16 "" 中的一个字节是 0x39,这就是您看到打印出来的原因。
好的,我已经解决了这个问题。 我不知道翻译模式。
_setmode(_fileno(stdin), _O_WTEXT);
是解决方案。 下面的链接基本上解释了存在翻译模式,我认为第 5 阶段(字符集映射)解释了发生了什么。 https://en.cppreference.com/w/cpp/language/translation_phases
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.