字符编码测试总结.docVIP

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
字符编码测试总结 字符编码测试总结2011-05-23 02:40 1.字符编码基础知识 1.1.字符编码基本概念 现代编码模型的编码思想包括:有什么字符、他们的编号、这些编号如何编码成一系列 的码元,以及最后这些单元如何编码为8位字节流。对应于如下术语: 1)字符表一个系统所支持的所有抽象字符的总合。 2)编码字符集定义了如何使用称为码点的非负整数集表示一个字符集,一个整数对 应一个抽象的字符。 3)字符编码形式定义将编码字符集的整数代码转换成有限大小整数代码值以利于使 用固定位的二进制表示数字的形式的系统存储。例如使用8位或16位单元存储数字信息。字符编码形式定义了如何用单个或多个码值表示码点的方法。例如utf8是一种编码形式,utf-16则是另一种编码形式。 4)字符编码机制定义固定大小的整数代码如何映射到基于8位字节数据的文件系统存储或者基于8位字节网络传输。在多数使用unicode的场合,一个简单的字符编码机制用来指定每个整数的字节顺序是大字节在先顺序还是小字节在先顺序。还有其他复杂的字符编码机制。 1.2.字符编码发展 字符编码的历史大致可以分为三个阶段: 1)ascii阶段 刚开始只支持英语,其他语言不能够在计算机上存储和显示。使用一个字节来存一个字符。 2)ansi编码(本地化) 为使计算机支持更过语言,通过使用0x80~0xFF范围的2个字节来表示1个字符。不同的国家和地区制定了不同的标准,由此产生了各种各样的编码标准,如gb2312、big5、jis等。这些使用两个字节来表示一个字符的各种汉字延伸编码方式,称为ansi编码。 3)Unicode阶段(国际化) 为了使国际间信息交流更加方便,国际组织制定了unicode字符集,为各种语言中的每一个字符设定了统一并且唯一的数字编号,以满足跨语言、跨平台进行文本转换、处理的要求。Unicode仅仅制定了字符集,用来给unicode编码的标准有utf-7、utf-8、utf-16、unicodeLittle、unicodebig等。 1.3.主要编码 1.3.1.Ascii ascii全称美国信息互换标准代码(american standard code for information interchage)。 主要用于显示现代英语和其他西欧语言,是现今最通用的单字节编码,等于国标标准iso 646。包含控制字符32个和可打印字符94个。编码单元为8位,取值单位从0x00-0x7F,最高为0。 1.3.2.汉字编码 汉字编码均采用双字节编码,编码单元为8位。 .Gb2312-80 Gb2312是对ascii的中文扩展,是中华人民共和国国家标准汉字信息交换用编码。收录 简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母等共7445个图形字符。其中汉字以外的图形字符682个,汉字6763个。 为了与系统中基本的ascii字符集区分开,所有汉字编码的每个字节的第一位都是1。 Gb2312的汉字编码规则是:第一个字节的值在0xB0到0xF7之间,第二个字节的值在0xA0到0xFE之间。 但是gb2312收录的汉字太少,以致很多常用字都没有收录,如朱镕基的镕字。为了解决这些问题,以及配合unicode的实施,全国信息技术化技术委员会制定了gb13000,即gbk。Gbk向下与gb2312完全兼容,向上支持iso-10646国际标准。 .Gbk Gbk包含了20902个汉字,其编码范围是0x8140-0xfefe,剔除高位0x80的字位。收录汉字包括: 1)gb2312中全部汉字、非汉字字符 2)big5中的全部汉字 3)与iso-10646相应的国家标准gb13000中的其他cjk汉字 4)其他汉字、部首、符号等。 其分布图如下: 其编码区分成三个部分: 1)汉字区包括 a)Gbk/2:0xb0a1-f7fe,收录gb2312汉字6763个,按原序排列,0xd7fa-0xd7fe为空洞。 b)Gbk/3:0x8140-a0fe,收录cjk汉字6080个,0x817f-0xa07f为空洞 c)Gbk/4:0xaa40-fea0,收录cjk汉字和增补汉字8160个,0xaa7f-0xfe7f为空洞 2)图形符号区包括 a)Gbk/1:0xa1a1-0xa9fe,除gb2312的符号外,还增补了其他符号 b)Gbk/5:0xa840-0xa9a0,扩充非汉字区 3)用户自定义区 .Gb18030-2000 GB18030-2000是2000年推出的国家标准。它可以视为GBK的升级,因为它主要增加了Unicode 3.0中新增的一些字符。除了GBK的字符,它能表示UNICODE中所有的字符。中国出售的所有软件产品都要求支持GB18030。 GB18030与GBK完

文档评论(0)

189****6649 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档