繁体   English   中英

字符集特殊字符

[英]Character Set Special Characters

  • iso-8859-1 是 utf-8 的真子集吗?
  • iso-8859-n 呢?
  • Windows-1252 怎么样?

如果以上任何一项的答案是否定的,不相交的字符是什么? 我正在测试一些检测字符集的逻辑,并想编写测试来验证检测是否正常工作。

iso-8859-1 是 utf-8 的真子集吗?

ISO-8859-1 的字符报告(Unicode 的前 256 个字符)是 UTF-8(每个 Unicode 个字符)的真子集。

但是,字符 U+0080 到 U+00FF在两种编码中的编码方式不同。

  • ISO-8859-1 为这些字符中的每一个分配一个从80FF单个字节
  • UTF-8 编码的字符与两字节序列C2 80C3 BF相同。

iso-8859-n 呢?

这些是 15 种不同的编码,总共包含 614 个不同的字符。 其中一些字符出现在 ISO 8859 的多个“部分”中,有些则没有。 你必须更具体。

我看到您的问题被标记为 ISO-8859-2。 -2 中不在 -1 中的字符是:

Ă㥹ĆćČčĎďĐđĘęĚěĹ弾ŁłŃńŇňŐőŔŕŘřŚśŞşŠšŢţŤťŮůŰűŹźŻżŽžˇ˘˙˛˝

Windows-1252 怎么样?

Windows-1252 与 ISO-8859-1 类似,只是它将 0x80-0x9F 范围内很少使用的控制字符替换为可打印字符。 在 windows-1252 中但不在 ISO-8859-1 中的字符是:

ŒœŠšŸŽžƒˆ˜–—''‚“”„†‡•…‰‹›€™

Unicode 是所有这些字符集的超集,也是几乎所有现有字符集的超集。 您可以在此处找到所有这些字符集到 Unicode 代码点的映射列表: http://unicode.org/Public/MAPPINGS/

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM