- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Unicode 字符的 UTF-8、UTF-16、UTF-32 编码方式
Unicode (统一码、万国码、单一码)是一种在计算机上使用的字符编码。它
为每种语言中的每个字符设定了统一并且唯一的二进制代码,以满足跨语言、跨
平台进行文本转换、处理的要求。 1990 年开始研发, 1994 年正式公布。随着计算
机工作能力的增强, Unicode 也在面世以来的十多年里得到普及。
Unicode 是基于通用字符集( Universal Character Set )的标准来发展,并
且同时也以书本的形式( The Unicode Standard ,目前第五版由 Addison-Wesley
Professional 出版, ISBN-10: 0321480910 )对外发表。
2006 年 6 月的最新版本的 Unicode 是 2005 年 3 月 31 日推出的 Unicode
4.1.0 。另外,5.0 Beta 于 2005 年 12 月 12 日推出,5.2 版本 (unicode standard )
于 2009 年 10 月 1 日正式推出,以供各会员评价。
一、 Unicode 的编码和实现
大概来说, Unicode 编码系统可分为编码方式和实现方式两个层次。
1. 编码方式
Unicode 是国际组织制定的可以容纳世界上所有文字和符号的字符编码方
案。Unicode 用数字 0-0x10FFFF来映射这些字符, 最多可以容纳 1114112个字符,
或者说有 1114112个编码位置,简称 码位 。码位就是可以分配给字符的数字。 UTF-8、
UTF-16、UTF-32都是将这个数字转换到程序数据的编码方案。
Unicode 字符集可以简写为 UCS(Unicode Character Set )。早期的 Unicode
标准有 UCS-2、UCS-4的说法。 UCS-2用两个字节编码, UCS-4用 4 个字节编码。
7
UCS-4根据最高位为 0 的最高字节分成 2 =128 个 group, 每个 group 再根据次高字
节分为 256 个平面( plane )。每个平面根据第 3 个字节分为 256 行( row),每行
有 256 个码位 (cell )。group 0 的平面 0 被称作 BMP(Basic Multilingual Plane )。
将 UCS-4的 BMP去掉前面的两个零字节就得到了 UCS-2。
16
每个平面有 2 =65536 个码位。 Unicode 计划使用了 17 个平面,一共有
17*65536=1114112个码位。在 Unicode 5.0.0 版本中,已定义的码位只有 238605
个,分布在平面 0、平面 1、平面 2、平面 14、平面 15、平面 16。其中平面 15 和
平面 16 上只是定义了两个各占 65534 个码位的专用区( Private Use Area ),分
别是 0xF0000-0xFFFFD和 0x100000-0x10FFFD。所谓专用区 ,就是保留给大家放自
定义字符的区域,可以简写为 PUA。
平面 0 也有一个专用区: 0xE000-0xF8FF,有 6400 个码位。 平面 0 的
0xD800-0xDFFF,共 2048 个码位, 是一个被称作代理区 (Surrogate )的特殊区域 。
代理区的目的用两个 UTF-16 字符表示 BMP以外的字符。在介绍 UTF-16 编码时会
介绍。
如前所述在 Unicode 5.0
您可能关注的文档
- Ubuntu安装驱动[参考].pdf
- Ubuntu常用命令大全[总结].pdf
- Ubuntu终端常用命令[总结].pdf
- Ubuntu网络安装[归纳].pdf
- Ucenter最新数据字典[借鉴].pdf
- uclinux内核编译[参考].pdf
- Ucgui的消息机制分析[整理].pdf
- ucos-ii操作系统习题(嵌入式方向)[定义].pdf
- Ucore-操作系统实验六[归纳].pdf
- uCOS-II的嵌入式串口通信模块设计[归纳].pdf
- Unicode字符集和多字节字符集关系[借鉴].pdf
- UNICODE汉字数据库[收集].pdf
- UniMedia中间件技术白皮书[整理].pdf
- UNIONUNIONALL效率比较[借鉴].pdf
- Unit2HowoftendoyouexerciseSectionA例题与讲解[收集].pdf
- Unit2HowoftendoyouexerciseSectionB写作课课件[参照].pdf
- Unit3HowdoSectionB(2a--2c)课件(共30张PPT)[归纳].pdf
- Unity内置Shader详解[汇编].pdf
- Unix下打包命令的使用[文].pdf
- unix与linux的区别[总结].pdf
最近下载
- 新教材人音版一年级音乐上册(艺术唱游)全册教案(全30页)(2024年) .pdf VIP
- 放行管理规程.docx VIP
- 标准检验指导书(SIP)-(格式模板).docx VIP
- 2023年江西文化演艺发展集团有限责任公司岗位招聘考试真题.docx
- 道德与法治六年级上册第三单元《我们的国家机构》教案设计.docx VIP
- 2024年公务员行测真题附参考答案详解【满分必刷】.docx VIP
- 工业管道支吊架预制安装工艺设计标准.docx VIP
- 四年级上册数学计算题天天练及答案(可打印).pdf VIP
- 2025至2030中国网球行业发展趋势与前景展望战略报告.docx VIP
- 融合新闻学课件音频新闻.pptx VIP
原创力文档


文档评论(0)