2汉字信息在计算机内部的表示.ppt

  1. 1、本文档共70页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2汉字信息在计算机内部的表示

第 二 章 汉字信息在计算机内部的表示 内容 ASCII码 中文信息在计算机内的表示 汉字代码 常用汉字代码集 Internet上的汉字交换码 §1 ASCII码 ASCII码 扩展ASCII CJK-Roman 1.1 ASCII码 ASCII码是American Standard Code for Information Interchange的简称。 ISO于1991年定义相应的标准ISO/IEC 646:1991,全称为信息交换用7-位编码字符集(ISO 7-bit coded character set for information interchange)。 ASCII码用7位二进制数定义了128个字符,其中 94个图形字符(可显示字符) ‘0’-‘9’ :30H-39H ‘A’-’Z’: 41H-5AH ‘a’-’z’ : 61H-7AH 30个控制字符 1个空格字符和1个Del(删除)符 1.2 扩展ASCII 最简单的扩展方式:采用8位表示扩展ASCII码字符集。 ISO 8859的第1至第10部分(Information Processing—8 Bit Single-Byte Coded Graphic Character Set)标准中定义了新增的128个码元的字符编码集。这10个部分分别定义了ASCII码和其扩展的字符集。 1.3 CJK-Roman CJK-Roman是指在中、日、韩字符编码标准中开发的ASCII字符,分别称为: GB-Roman(中国根据ASCII码字符集指定的信息交换用的ASCII字符编码标准,代号为GB 1988-89); CNS-Roman(台湾制订的ASCII码标准,代号为CNS 5205-1989); JIS-Roman(日本国家指定的ASCII码标准,代号为JIS X 0201-1997); KS-Roman(韩国制订的国家ASCII码标准,代号为KS X 1003:1993)。 这些字符集的编码与ASCII码一样,采用7位二进制数编码,收录的字符也基本与ASCII码一样,只是个别字符作了调整。 1.3 CJK-Roman-特殊字符 §2中文信息在计算机内的表示 概述 ISO/IEC 2022 字符在ISO/IEC 2022的代码空间 汉字在ISO/IEC 2022空间中的位置 ISO/IEC 2022的体系结构特点 2.1 概述 在计算机内表示中文信息最早出现在IBM、富士通、日立等计算机生产厂家的计算机中,但采用的编码形式互不兼容。 为了通用性,国际标准组织(ISO)、国际电子电气工程师协会(IEEE)以及各个使用汉字的国家和地区,在计算机技术发展中,都制定了各种各样的汉字编码字符集。 一般汉字在计算机内的表示都是通过扩充编码长度来实现。 2.2 ISO/IEC 2022 ISO/IEC 2022定义了七位代码和八位代码的空间及其代码空间扩充的技术。 绝大多数计算机系统所采用的字符集,都是以ISO/IEC 2022为基础: GB2312 Big-5 …… 2.2 ISO/IEC 2022-单八位代码空间图 2.2 ISO/IEC 2022-单八位代码空间图(续) 00-31(十六进制为00H-1FH):第一个控制字符集C0的编码区域 32(十六进制为20H):Space 127(十六进制为7FH):DELETE 128-160(十六进制为80H-A0H):第二个控制字符集C1的编码区域 33-126 ( GL ) 和161-254 (GR):两个图形字符的编码区域 2.3 字符在ISO/IEC 2022的代码空间 2.4 汉字在ISO/IEC 2022空间中的位置 2.5 ISO/IEC 2022的体系结构特点 代码空间狭小,凡是C0, C1控制字符相关的空间都回避不用;汉字编码没有利用80 (十六进制) 以上的空间。 按国家/地区分别编码。 需要一整套复杂的指明/调用的控制功能来区分代码空间中的字汇。 §3 汉字代码 什么是汉字代码 汉字交换码 汉字机内码 汉字区位码 交换码、 区位码和内码关系 代码页 汉字编码字符集 3.1 什么是汉字代码 汉字代码是真实世界的汉字信息在计算机系统中的最基本表示。 根据汉字信息在计算机内部使用的目的和存储的方式,汉字代码有各种不同的形式和称谓。最常使用的有交换码和内码等。 3.2 汉字交换码 汉字交换码是用于信息交换的汉字代码。 可以用双字节、3字节和4字节表示。 汉字交换码一般不能直接用于信息处理。 例如,在GB2312中,“码”字的交换码为十六进制的42h/6Bh。无法与ASCII码的“Bk”相区别。 在实际使用中,交换码必须转换为机内码。 但是在国际标准ISO/IEC 10646

文档评论(0)

精华文库 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7111022151000002

1亿VIP精品文档

相关文档