汉字的编码讲解.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
“ ” “ ” 汉字的编码 汉字也是一种字符,也需用“0”、“1”组合进行编码,才能被计算机接受。汉字是象形文字,有近60000个左右的汉字,常用汉字就有7000个左右。汉字的编码处理与西文的拼音文字有较大区别,汉字信息处理较复杂,它涉及输入码、内码、字型码等多种编码。 1.汉字输入码 为了能直接在键盘上输入汉字,就需要为汉字进行相应的输入编码。采用输入码,就是通过键盘的字母、数字等实现汉字的输入。 常见的输入编码方法有数字、字音编码、字型、混合编码。 数字编码常用的是国标区位码,电报码等,用4位十进制数字串代表一个汉字。国标区位码是将国家标准局公布的6763个两级汉字分为94个区,每个区分94位,一位就是一个汉字。实际上把汉字表示成二维数组,每个汉字在数组中的下标就是区位码,区码和位码各两位十进制数字,因此输入一个汉字需键四次,例如“中”字位于第54区48位,区位码为5448。 该编码无重码,但难记忆。 例:“学”字的区号为49,位号为07,其区位码为4907,用2个字节的二进制数表示为: 00000111 ISO2022规定每个汉字的区号和位号必须分别加上32(即二进制,经过这样的处理而得的代码就是国标码。 “学”字的国标码计算为: ? ? 用十六进制数表示为5127H。 字音编码是以汉语拼音为基础的编码。可输入6700多个汉字及一万多个词汇。是普通使用者常使用的编码。该编码方法重码多。 字型编码是用汉字的形状来进行编码。常用的有五笔字型输入码。字型编码重码少。 2.汉字内码 汉字内码是汉字在计算机内部存储、交换、检索等处理的信息代码。 无论采用何种输入码进行汉字的输入,为存储、处理方便,都要转换成长度一致的汉字内码。 常使用的内码是以GB2312—80(国标码)为基础的编码。该编码用两个连续的字节表示一个汉字,且这两个字节最高位均为1,与西文字符区别。它最多可表示汉字数为:128×128=16384个。 3.汉字字型码 汉字字型码是计算机中用于输出(显示、打印等)汉字的一种编码,它是用汉字点阵表示的汉字字型代码。在字型点阵中,笔画经过的点为1,其他点为0。由于汉字有多种字体,字型不同,其字型点阵也不同。所有汉字字符集的字型点阵构成字型库,需要显示、打印时,根据汉字内码向字型库检索出该汉字的字型信息后,进行输出。 汉字编码处理过程如图2-4-1所示。 在目前的汉字的处理中,字形信息的表示通常采用点阵表示法、矢量表示法。 汉字点阵的大小有多种规格,汉字字形质量随点阵数的增加而优化。点阵越大,描述的字越细致美观,质量越高。汉字最小点阵16×16一般用于计算机屏幕显示,24×24点阵常用于普通打印字形,64×64点阵可以区别仿宋体和黑体字,96×96点阵的汉字排版系统以及128×128、256×256点阵能充分表示出字形的笔锋和曲线。点阵数越多,描述一个汉字字形的字节数也越多,需要计算机存储空间亦越大。 点阵码采用点阵表示汉字字形,即把汉字按字形排列为点阵,再进行编码。下图为“次”汉字的点阵和编码。 例:按24×24点阵存放6763个汉字,则此字库的容量大约为( ) A.13500B B.216000B C.487000B D.以上都不对 解析:每个汉字需要字节数24×24/8=72个字节 6763个汉字需要字节数为72×6763=486936B 例:已知汉字“班”的区位码是1664,试写出它的国标码和变形国标码。 解:汉字的区位码是以十进制数给出的,因此可先将该十进制数转换十六进制数,再加上2020H(双字节32)即可得到它的国标码,在国标码的基础上加上8080H即可得到它的变形国标码。 1664D=0680H 0680H+2020H=26A0H 26A0H+8080H=A720H 矢量码使用一组数学矢量来记录汉字的外形轮廓,矢量码记录的字体称为矢量字体或轮廓字体。这种字体能很容易地放大或缩小而不会出现锯齿状边缘,屏幕上看到的字形和打印输出的效果完全一致。在目前使用系统中,已普遍使用轮廓字体(称为True Type字体)。例如中文Windows中提供了宋体、黑体、楷体。仿宋体等True Type字体的汉字库文件。 由于汉字字形所需要的存储空间很大,所以汉字字形不用于机内存储,而采用字库存储。所有的不同字体、字号的汉字字形码构成了汉字字库。只有需要输出汉字时,才将汉字机内码转换 相应的汉字字库地址,检索字库,输出字形码。目前汉字字库通常是以多个字库文件的形式存储在硬盘上。 “ ”

文档评论(0)

w5544434 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档