第五章 中文信息处理.ppt

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章 中文信息处理 5.2 中文信息在计算机内的表示 在计算机内表示中文信息的最早在IBM、富士通、日立等计算机生产厂家的计算机中开始,但采用的编码形式互不兼容。 为了能使汉字能够在计算机中通行,国际标准组织(ISO)、国际电子电气工程师协会(IEEE)以及各个使用汉字的国家和地区,在计算机技术发展中,都制定了各种各样的汉字编码字符集。 ISO/IEC 2022定义了七位代码和八位代码的空间及其代码空间扩充的技术。 绝大多数计算机系统所采用的字符集,都是以ISO/IEC 2022为基础的。 一般汉字在计算机内部的表示都是通过扩充编码长度实现的。 汉字的几种通行名称 Hanzi,Hantsu,汉字 Ideographic character,表意字符,中文字符 Kanji-日文中的叫法 Hanja-朝鲜文中的叫法 CJK-中日韩通用字符集 Unihan ISO/IEC 2022单八位代码空间图 ISO/IEC 2022单八位代码空间图 00-31(十六进制为00H-1FH)为第一个控制字符集C0H的编码区域 32(十六进制为20H)为Space 127(十六进制为7FH)为DELETE符; 128-160(十六进制为80H-A0H)为第二个控制字符集C1的编码区域 33-126 ( GL ) 和161-254 (GR) 则是两个图形字符的编码区域 汉字在ISO/IEC 2022空间中的位置 ISO/IEC 2022的体系结构特点 代码空间狭小,凡是C0, C1控制字符相关的空间都回避不用;汉字编码没有利用80 (十六进制) 以上的空间。 按国家/地区分别编码。 需要一整套复杂的指明/调用的控制功能来区分代码空间中的字汇。 汉字代码 汉字内码是真实世界的汉字信息在计算机系统中的最基本表示。 根据汉字信息在计算机内部使用的目的和存储的方式,汉字代码有各种不同的形式和称谓。 最常使用的有交换码和内码等。 汉字交换码 汉字交换码是用于信息交换的汉字代码。 可以用双字节、3字节和4字节表示。 汉字交换码一般不能直接用于信息处理。 例如,在GB2312中,“码”字的交换码为十六进制的42h/6Bh。无法与ASCII码的“Bk”相区别。 在实际使用中,交换码必须转换为机内码。 但是在国际标准ISO/IEC 10646和Unicode中,交换码与处理码可以是一致的,因为此时的ASCII码也采用双字节表示。 汉字区位码 汉字区位码是汉字交换码的另一种表示形式。 在GB2312中,汉字交换码所占的方阵大小为94×94,若纵向定义为区号(取值范围为十进制数的0-94),横向定义为位号(取值范围为十进制数的0-94),则两个坐标明确了一个汉字的位置。区号和位号的编号都是从1开始,到94结束。 例如,在GB2312-80中,“ 码”字所在的区号为“34”,位号为“75”,故其区位码为“3475”。 汉字区位码 GB2312-80汉字编码 国标交换码: 问题:信息通信中,汉字的区位码与通信使用的控制码(00H~1FH)发生冲突。 解决方案:为了避免汉字区位码与通信控制码的冲突,ISO2022规定,每个汉字的区号和位号必须分别加上32(即二进制0010 0000)。 经过这样处理得到的代码称为汉字的“国标交换码”(简称交换码)。因此,“大”字的交换码是:01110011。 汉字机内码 用于信息处理的汉字代码,也称汉字处理码。 汉字的内码长度可以不同,通常汉字内码是双字节。 对于单字节操作系统内核,汉字代码为了与ASCII码相区别,往往把两字节(至少把第一个字节)的最高位(Bit 7)置为1。 汉字机内码 GB2312-80汉字编码 机内码: 问题:文本中的汉字与西文字符经常是混合在一起使用的,汉字信息如不予以特别的标识,它与单字节的标准ASCII码就会混淆不清。 解决方法:把一个汉字看作两个扩展ASCII码,使表示GB2312汉字的两个字节的最高位(b7)都等于“1”。这种高位为l的双字节(16位)汉字编码就称为GB2312汉字的“机内码”,又称内码。 如:“大”字的内码是11110011(B4F3) 交换码、 区位码和内码关系 在GB2312-80中,交换码、 区位码、处理码之间存在着简单的转化关系。 设交换码为JH(J为高位,H为低位,为十六进数),区位码为QW(Q为区号,W为位号,为十进制数),处理码为CL(C为高位,L为低位,为十六进制数),则: J=Q+32 --?再转换为十六进制数 H=W+32 --?再转换为十六进制数 C=J+80H L=H+80H 汉字编码字符集 按照一组无歧义的规则而定义的汉字字汇的有序集合。其中每一个汉字与它的代码表示之间具有一一对应关系。 在信息处理技术

文档评论(0)

汪汪队 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档