网站大量收购闲置独家精品文档,联系QQ:2885784924

[理学]字符编码.ppt

  1. 1、本文档共49页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[理学]字符编码

* 二、计算机中中文字符的表示 汉字内码 国标码是汉字信息交换的标准编码,但因其前后字节的最高位为0,与ASCII码发生冲突,如“保” 字,国标码为31H和23H(区位码为1103H),而西文字符“1”和“#”的ASCII码也分别为31H和23H。 现假如内存中有两个字节为31H和23H,这到底是一个汉字,还是两个西文字符“1”和“#”?于是就出现了二义性。 * 二、计算机中中文字符的表示 汉字内码 显然,国标码是不可能在计算机内部直接采用的。于是,汉字的机内码采用变形国标码。其变换方法为:将国标码的每个字节都加上128(80H),即将每个字节的最高位由0改1,其余7位不变。或将区码和位码各加A0H(十进制160)。 如: “保”字的国标码为3123H,前字节,后字节,高位分别改1 ,即为B1A3H,因此, “保”字的机内码就是B1A3H。 * 二、计算机中中文字符的表示 汉字输入码 无论是区位码或国标码都不利于输入汉字,为方便汉字的输入而制定的汉字编码,称为汉字输入码,又称“外码”,即各种输入法编码方案。常见的输入法有以下几类: 按汉字的排列顺序形成的编码(流水码):如区位码; 按汉字的读音形成的编码(音码):如全拼、简拼、双拼等; 按汉字的字形形成的编码(形码):如五笔字型、郑码等; 按汉字的音、形结合形成的编码(音形码):如自然码、智能ABC。   输入码在计算机中必须转换成机内码,才能进行存储和处理。 * 二、计算机中中文字符的表示 汉字字形码(输出码)   汉字字形码是对汉字的形状进行二进制编码,主要用来显示或打印汉字, 是表示汉字字形的字模数据,常用点阵、矢量函数等方式表示。 为了将汉字在显示器或打印机上输出,把汉字按图形符号设计成点阵图,就得到了相应的点阵代码—字形码。   全部汉字字形码的集合叫汉字字库。汉字库可分为软字库和硬字库。软字库以文件的形式存放在硬盘上,现多用这种方式,硬字库则将字库固化在一个单独的存储芯片中,再和其它必要的器件组成接口卡,插接在计算机上,通常称为汉卡。       * 二、计算机中中文字符的表示 汉字字形码(输出码)   用于显示的字库叫显示字库。显示一个汉字一般采用16×16点阵或24×24点阵或48×48点阵。已知汉字点阵的大小,可以计算出存储一个汉字所需占用的字节空间。例:用16×16点阵表示一个汉字,就是将每个汉字用16行,每行16个点表示,一个点需要1位二进制代码,16个点需用16位二进制代码(即2个字节),共16行,所以需要16行×2字节/行=32字节,即16×16点阵表示一个汉字,字形码需用32字节。    即:字节数=点阵行数×点阵列数/8   用于打印的字库叫打印字库,其中的汉字比显示字库多,而且工作时也不像显示字库需调入内存。    * 二、计算机中中文字符的表示 汉字字形码(输出码)   可以这样理解,为在计算机内表示汉字而统一的编码方式形成汉字编码叫内码(如国标码),内码是惟一的。为方便汉字输入而形成的汉字编码为输入码,属于汉字的外码,输入码因编码方式不同而不同,是多种多样的。为显示和打印输出汉字而形成的汉字编码为字形码,计算机通过汉字内码在字模库中找出汉字的字形码,实现其转换。   例1:已知汉字“春”的国标码为343AH,求其机内码。 机内码=区位码+A0A0H=国标码+8080H=343AH+8080H=B4BAH   例2:用24×24点阵来表示一个汉字(一点为一个二进制位),则2000个汉字需要多少KB容量?      (24×24/8)×2000/1024=140.7KB≈141KB 二、计算机中中文字符的表示 汉字字形码(输出码) * 二、计算机中中文字符的表示 汉字字形码(输出码)    * 汉字“中”的16×16点阵的字形及字形编码 (a)16×16点阵字形表示 (b)16×16点阵字形编码表示 * 三、计算机中其它中文字符集简介 GB2312 GBK Big5 Unicode 汉字是一个大字符集 《说文解字》(东汉)收录9353字 《玉篇》(南朝)收录16,917字 《广韵》(宋代)收字26,194字 《字汇》(明朝)收录33,197字 《康熙字典》(清朝)收录47,043字 《汉语大字典》(1992年)收录超过5.6万字 * GBK 码 GBK码是GB-2312的扩展 GBK 向下与 GB 2312 编码兼容,向上支持 ISO 10646.1 国际标准。 ISO 10646 是国际标准化组织 ISO 公布的一个编码标准,即 Uni

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档