Uniode字符集.docVIP

  • 128
  • 0
  • 约6.89万字
  • 约 13页
  • 2017-06-13 发布于河南
  • 举报
Uniode字符集

Unicode通用HYPERLINK /view/51987.htm \t _blank字符集 Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的HYPERLINK /view/18536.htm \t _blank二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。随着计算机工作能力的增强,Unicode也在面世以来的十多年里得到普及。 Unicode 是基于通用HYPERLINK /view/51987.htm \t _blank字符集(Universal Character Set)的标准来发展,并且同时也以书本的形式(The Unicode Standard,目前第五版由Addison-Wesley Professional出版 unicode,ISBN-10: 0321480910)对外发表。   2006年7 HYPERLINK /view/75273.htm \t _blank 月的最新版本的 Unicode 是5.0版本。 2005年HYPERLINK /view/477558.htm \t _blank3月31日推出的Unicode 4.1.0 。另外,5.0 Beta于2005年12月12日推出,5.2版本(unicode standard)于2009年10月1日正式推出,以供各会员评价。   目前Unicode标准,6.1版已发布(2012年1月31日)。在unicode联盟网站上可以查看完整的6.1的核心规范。   Unicode定义了大到足以代表人类所有可读字符的字符集。   Java语言就用到了Unicode编码,从而实现了该语言的国际通用性。 HYPERLINK /view/40801.htm 编辑本段Unicode 的编码和实现   大概来说,Unicode 编码系统可分为HYPERLINK /view/1084820.htm \t _blank编码方式和实现方式两个层次。 编码方式   Unicode是HYPERLINK /view/10475.htm \t _blank国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode用数字0-0x10FFFF来映射这些字符,最多可以容纳1114112个字符,或者说有1114112个码位。码位就是可以分配给字符的数字。HYPERLINK /view/25412.htm \t _blankUTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。   通用字符集(Universal Character Set,UCS)是由ISO制定的ISO 10646(或称ISO/IEC 10646)标准所定义的标准字符集。UCS-2用两个字节编码,UCS-4用4个字节编码。   历史上存在两个独立的尝试创立单一字符集的组织,即 HYPERLINK /view/42488.htm \t _blank 国际标准化组织(ISO)和多语言软件制造商组成的统一码联盟。前者开发的 ISO/IEC 10646 项目,后者开发的统一码项目。因此最初制定了不同的标准。   1991年前后,两个项目的参与者都认识到,世界不需要两个不兼容的字符集。于是,它们开始合并双方的工作成果,并为创立一个单一编码表而协同工作。从Unicode 2.0开始,Unicode采用了与ISO 10646-1相同的HYPERLINK /view/1127103.htm \t _blank字库和字码;ISO也承诺,ISO 10646将不会替超出U+10FFFF的UCS-4编码赋值,以使得两者保持一致。两个项目仍都存在,并独立地公布各自的标准。但统一码联盟和ISO/IEC JTC1/SC2都同意保持两者标准的码表兼容,并紧密地共同调整任何未来的扩展。在发布的时候,Unicode一般都会采用有关字码最常见的字型,但ISO 10646一般都尽可能采用Century字型。   UCS-4根据最高位为0的最高字节分成2^7=128个group。每个group再根据次高字节分为256个平面(plane)。每个平面根据第3个字节分为256行 (row),每行有256个码位(cell)。group 0的平面0被称作BMP(Basic Multilingual Plane)。将UCS-4的BMP去掉前面的两个零字节就得到了UCS-2。每个平面有2^16=65536个码位。Unicode计划使用了17个平面,一共有17*65536=1114112个码位。在Unicode 5.0.0版本中,已定义的码位只有238605个,分布在平面0、平面1、平面2、平面14、平面

文档评论(0)

1亿VIP精品文档

相关文档