Unicode字符的UTF-8、UTF-16、UTF-32编码方式[总结].pdfVIP

Unicode字符的UTF-8、UTF-16、UTF-32编码方式[总结].pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Unicode 字符的 UTF-8、UTF-16、UTF-32 编码方式 Unicode (统一码、万国码、单一码)是一种在计算机上使用的字符编码。它 为每种语言中的每个字符设定了统一并且唯一的二进制代码,以满足跨语言、跨 平台进行文本转换、处理的要求。 1990 年开始研发, 1994 年正式公布。随着计算 机工作能力的增强, Unicode 也在面世以来的十多年里得到普及。 Unicode 是基于通用字符集( Universal Character Set )的标准来发展,并 且同时也以书本的形式( The Unicode Standard ,目前第五版由 Addison-Wesley Professional 出版, ISBN-10: 0321480910 )对外发表。 2006 年 6 月的最新版本的 Unicode 是 2005 年 3 月 31 日推出的 Unicode 4.1.0 。另外,5.0 Beta 于 2005 年 12 月 12 日推出,5.2 版本 (unicode standard ) 于 2009 年 10 月 1 日正式推出,以供各会员评价。 一、 Unicode 的编码和实现 大概来说, Unicode 编码系统可分为编码方式和实现方式两个层次。 1. 编码方式 Unicode 是国际组织制定的可以容纳世界上所有文字和符号的字符编码方 案。Unicode 用数字 0-0x10FFFF来映射这些字符, 最多可以容纳 1114112个字符, 或者说有 1114112个编码位置,简称 码位 。码位就是可以分配给字符的数字。 UTF-8、 UTF-16、UTF-32都是将这个数字转换到程序数据的编码方案。 Unicode 字符集可以简写为 UCS(Unicode Character Set )。早期的 Unicode 标准有 UCS-2、UCS-4的说法。 UCS-2用两个字节编码, UCS-4用 4 个字节编码。 7 UCS-4根据最高位为 0 的最高字节分成 2 =128 个 group, 每个 group 再根据次高字 节分为 256 个平面( plane )。每个平面根据第 3 个字节分为 256 行( row),每行 有 256 个码位 (cell )。group 0 的平面 0 被称作 BMP(Basic Multilingual Plane )。 将 UCS-4的 BMP去掉前面的两个零字节就得到了 UCS-2。 16 每个平面有 2 =65536 个码位。 Unicode 计划使用了 17 个平面,一共有 17*65536=1114112个码位。在 Unicode 5.0.0 版本中,已定义的码位只有 238605 个,分布在平面 0、平面 1、平面 2、平面 14、平面 15、平面 16。其中平面 15 和 平面 16 上只是定义了两个各占 65534 个码位的专用区( Private Use Area ),分 别是 0xF0000-0xFFFFD和 0x100000-0x10FFFD。所谓专用区 ,就是保留给大家放自 定义字符的区域,可以简写为 PUA。 平面 0 也有一个专用区: 0xE000-0xF8FF,有 6400 个码位。 平面 0 的 0xD800-0xDFFF,共 2048 个码位, 是一个被称作代理区 (Surrogate )的特殊区域 。 代理区的目的用两个 UTF-16 字符表示 BMP以外的字符。在介绍 UTF-16 编码时会 介绍。 如前所述在 Unicode 5.0

文档评论(0)

肖四妹学教育 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档