簡體   English   中英

字符集特殊字符

[英]Character Set Special Characters

  • iso-8859-1 是 utf-8 的真子集嗎?
  • iso-8859-n 呢?
  • Windows-1252 怎么樣?

如果以上任何一項的答案是否定的,不相交的字符是什么? 我正在測試一些檢測字符集的邏輯,並想編寫測試來驗證檢測是否正常工作。

iso-8859-1 是 utf-8 的真子集嗎?

ISO-8859-1 的字符報告(Unicode 的前 256 個字符)是 UTF-8(每個 Unicode 個字符)的真子集。

但是,字符 U+0080 到 U+00FF在兩種編碼中的編碼方式不同。

  • ISO-8859-1 為這些字符中的每一個分配一個從80FF單個字節
  • UTF-8 編碼的字符與兩字節序列C2 80C3 BF相同。

iso-8859-n 呢?

這些是 15 種不同的編碼,總共包含 614 個不同的字符。 其中一些字符出現在 ISO 8859 的多個“部分”中,有些則沒有。 你必須更具體。

我看到您的問題被標記為 ISO-8859-2。 -2 中不在 -1 中的字符是:

Ă㥹ĆćČčĎďĐđĘęĚěĹ弾ŁłŃńŇňŐőŔŕŘřŚśŞşŠšŢţŤťŮůŰűŹźŻżŽžˇ˘˙˛˝

Windows-1252 怎么樣?

Windows-1252 與 ISO-8859-1 類似,只是它將 0x80-0x9F 范圍內很少使用的控制字符替換為可打印字符。 在 windows-1252 中但不在 ISO-8859-1 中的字符是:

ŒœŠšŸŽžƒˆ˜–—''‚“”„†‡•…‰‹›€™

Unicode 是所有這些字符集的超集,也是幾乎所有現有字符集的超集。 您可以在此處找到所有這些字符集到 Unicode 代碼點的映射列表: http://unicode.org/Public/MAPPINGS/

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM