第二章 汉字代码体系..pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章 汉字信息在计算机内部的表示 内容: ASCII码 中文信息在计算机内的表示 汉字代码 常用汉字代码集 Internet上的汉字交换码 §1 ASCII码 一、ASCII码 ASCII码是American Standard Code for Information Interchange的简称。 ISO于1991年定义相应的标准ISO/IEC 646:1991,全称为信息交换用7-位编码字符集(ISO 7-bit coded character set for information interchange)。 ASCII码用7位二进制数定义了128个字符 94个为图形字符(可显示字符) ‘0’-‘9’ :30H-39H ‘A’-’Z’: 41H-5AH ‘a’-’z’ : 61H-7AH 30个控制字符 1个空格字符和1个Del(删除)符。 二、扩展ASCII 最简单的一种扩展方式是采用8位来表示一个扩展的ASCII码字符集。 ISO 8859的第1至第10部分(Information Processing—8 Bit Single-Byte Coded Graphic Character Set)标准中定义了新增的128个码元的字符编码集。这10个部分分别定义了ASCII码和其扩展的字符集。 三、CJK-Roman CJK-Roman是指在中、日、韩字符编码标准中开发的ASCII字符,分别称为: GB-Roman(中国根据ASCII码字符集指定的信息交换用的ASCII字符编码标准,代号为GB 1988-89); CNS-Roman(台湾制订的ASCII码标准,代号为CNS 5205-1989); JIS-Roman(日本国家指定的ASCII码标准,代号为JIS X 0201-1997); KS-Roman(韩国制订的国家ASCII码标准,代号为KS X 1003:1993)。 这些字符集的编码与ASCII码一样,采用7位二进制数编码,收录的字符也基本与ASCII码一样,只是个别字符作了调整。 四、CJK-Roman中的特殊字符 §2中文信息在计算机内的表示 在计算机内表示中文信息的最早在IBM、富士通、日立等计算机生产厂家的计算机中开始,但采用的编码形式互不兼容。 为了能使汉字能够在计算机中通行,国际标准组织(ISO)、国际电子电气工程师协会(IEEE)以及各个使用汉字的国家和地区,在计算机技术发展中,都制定了各种各样的汉字编码字符集。 一般汉字在计算机内部的表示都是通过扩充编码长度实现的。 一、ISO/IEC 2022 ISO/IEC 2022定义了七位代码和八位代码的空间及其代码空间扩充的技术。 绝大多数计算机系统所采用的字符集,都是以ISO/IEC 2022为基础的。 二、ISO/IEC 2022单八位代码空间图 二、ISO/IEC 2022单八位代码空间图 00-31(十六进制为00H-1FH)为第一个控制字符集C0H的编码区域 32(十六进制为20H)为Space 127(十六进制为7FH)为DELETE符; 128-160(十六进制为80H-A0H)为第二个控制字符集C1的编码区域 33-126 ( GL ) 和161-254 (GR) 则是两个图形字符的编码区域 三、字符在ISO/IEC 2022的代码空间 四、汉字在ISO/IEC 2022空间中的位置 五、ISO/IEC 2022的体系结构特点 代码空间狭小,凡是C0, C1控制字符相关的空间都回避不用;汉字编码没有利用80 (十六进制) 以上的空间。 按国家/地区分别编码。 需要一整套复杂的指明/调用的控制功能来区分代码空间中的字汇。 §3 汉字代码 汉字内码是真实世界的汉字信息在计算机系统中的最基本表示。 根据汉字信息在计算机内部使用的目的和存储的方式,汉字代码有各种不同的形式和称谓。最常使用的有交换码和内码等。 一、汉字交换码 汉字交换码是用于信息交换的汉字代码。 可以用双字节、3字节和4字节表示。 汉字交换码一般不能直接用于信息处理。 例如,在GB2312中,“码”字的交换码为十六进制的42h/6Bh。无法与ASCII码的“Bk”相区别。 在实际使用中,交换码必须转换为机内码。 但是在国际标准ISO/IEC 10646和Unicode中,交换码与处理码可以是一致的,因为此时的ASCII码也采用双字节表示。 二、汉字机内码 用于信息处理的汉字代码,也称汉字处理码。 汉字的内码长度可以不同,通常汉字内码是双字节。 对于单字节操作系统内核,汉字代码为了与ASCII码相区别,往往把两字节(至少把第一个字节)的最高位(Bit 7)置为1。 三、汉字区位码 汉字区位码是汉字交换码的另一种表示形式。 在GB2312中,汉字交

文档评论(0)

wyjy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档