繁体   English   中英

如何检测 C++ Windows 中的非 ascii 字符?

[英]how to detect non-ascii characters in C++ Windows?

我只是想在 Windows 上的 C++ 程序中检测非 ascii 字符。 使用类似isascii()或:

bool is_printable_ascii = (ch & ~0x7f) == 0 && 
                          (isprint() || isspace()) ;

不起作用,因为在getchar()执行其操作之前或期间将非 ascii 字符映射到 ascii 字符。 例如,如果我有一些代码,例如:

#include <iostream>
using namespace std;
int main()
{
    int c;
    c = getchar();
    cout << isascii(c) << endl;
    cout << c << endl;
    printf("0x%x\n", c);
    cout << (char)c;
    return 0;
}

并输入一个(因为我现在很高兴),output 是

1
63
0x3f
?

此外,如果我为程序提供一些东西(在扩展的 ascii 范围(代码页 437)之外),比如“Ĥ”,我会得到 output

1
72
0x48
H

这适用于类似的输入,例如Ĭ或ō(转到I和o)。 所以这似乎是算法,而不仅仅是 mojibake 之类的。 使用类似的程序快速检查 python(通过同一终端)

i = input()
print(ord(i))

给了我预期的实际十六进制代码,而不是 ascii 映射的代码(所以它不是代码页或终端(?))。 这让我相信getchar()或 C++ 编译器(在 VS 编译器和 g++ 上测试)正在做一些时髦的事情。 我也尝试过使用cin和许多其他替代方法。 请注意,我已在 Linux 上尝试过此操作,但我无法重现此问题,这让我倾向于认为这与 Windows(10 专业版)有关。 谁能解释这里发生了什么?

尝试用 getwchar() 替换getchar() getwchar(); 我认为你是对的,这是一个仅限 Windows 的问题。

我认为问题在于getchar(); 期望输入为char类型,它是 8 位并且仅支持 ASCII。 getwchar(); 支持允许其他文本编码的wchar_t类型。 "" 不是 ASCII,从这个页面: https://docs.microsoft.com/en-us/windows/win32/learnwin32/working-with-strings ,似乎 Windows 用 UTF-编码这样的扩展字符16. 我在查找 utf-16 表情符号的查找表时遇到了麻烦,但我猜测 utf-16 "" 中的一个字节是 0x39,这就是您看到打印出来的原因。

好的,我已经解决了这个问题。 我不知道翻译模式

_setmode(_fileno(stdin), _O_WTEXT);

是解决方案。 下面的链接基本上解释了存在翻译模式,我认为第 5 阶段(字符集映射)解释了发生了什么。 https://en.cppreference.com/w/cpp/language/translation_phases

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM