Unicode
外观
本书的目的是维护对 Unicode 编码和任何与 Unicode 规范相关的內容的参考。
本书是必要的,因为尽管这里关于 Unicode 参考的文章已从维基百科和维基文库中删除,但此标准被 IT 技术广泛使用,参考非常必要。
简介
Unicode 是一种行业标准,其目标是提供一种方法,通过该方法可以将所有形式和语言的文本编码为单一字符集,以便计算机使用。最初,文本字符在计算机中使用字节宽数据表示:每个可打印字符(以及许多不可打印或“控制”字符)都使用一个字节表示,总共允许 256 个字符。然而,全球化已经造成了对计算机能够以可互换的方式容纳来自世界各地的许多不同字母表(和其他书写系统)的需求。
使用的旧编码包括 ASCII 或 EBCDIC,但很明显它们无法处理来自世界各地的所有不同字符和字母。这个问题的解决方案是创建一组“宽”的 16 位字符,理论上能够容纳大多数国际语言字符。这个新的字符集最初被称为通用字符集(UCS),后来标准化为 Unicode。然而,在 Unicode 标准的第一个版本之后,很明显 65,535 (216) 个字符仍然不足以表示所有现有脚本中的每个字符,因此标准进行了修订,增加了 16 个补充平面,每个平面包含 65,536 个字符,从而将可表示码点的总数增加到 1,114,112。到目前为止,只有不到 10% 的空间在使用。