汉字的编码和存储.docVIP

  • 106
  • 0
  • 约3.11千字
  • 约 7页
  • 2019-05-16 发布于江西
  • 举报
汉字的编码和关系 一、汉字的编码 ⑴ 交换码 不同设备之间交换信息需要有共同的信息表示方法,对于字符和汉字的交换也需要制定一种人们共同遵守的编码标准,这就是交换码标准。现在,汉字交换码主要采用国标码和BIG5码两种编码方式。 ① 国标码 1981年我国公布的《通用汉字字符集(基本集)及其交换码标准》GB2312-80编码简称国标码,它规定每个汉字编码由两个字节构成。第一个字节的范围从A1H-FE H,共94种,第二个字节的范围也为A1H-FEH,共94种。利用这两个字节可定义出 94 × 94=8836种汉字,实际共定义了6763个汉字和682个图形符号。汉字分为两级,即一级(常用)汉字3755个(按汉语拼音排序)和二级(次常用)汉字3008个(按偏旁部首排序)。 为了满足信息处理的需要,在国标码的基础上,2000年3月我国又推出了《信息技术· 信息交换用汉字编码字符集·基本集的扩充》新国家标准,共收录了27000多个汉字,还包括藏、蒙、维吾尔等主要少数民族文字,采用单、双、四字节混合编码,基本上解决了计算机汉字和少数民族文字的使用标准问题。 ② BIG5码 BIG5码是台湾计算机界实行的汉字编码字符集。BIG5码编码规则是这样的:每个汉字编码由两个字节构成,第一个字节的范围从A1H-F9H,共89种,第二个字节的范围分别为40H-7EH,A1H-FEH,共157种。也就是说,利用这两个字节共可定义出 89 × 157=13973种汉字,其中,常用字共5401个,次常用字共7652个,剩下的便是一些特殊字符。 ⑵ 汉字输入码 在计算机系统处理汉字时,首先遇到的问题是如何输入汉字。汉字输入码是指从键盘输入汉字时采用的编码,又称为外码,主要有: 数字编码,如区位码; 拼音码,如全拼输入法、微软拼音输入法、紫光输入法、智能ABC输入法等; 形码,如五笔字型输入法、表形码; 音形码,如双拼码、五十字元等。 ⑶ 汉字机内码 汉字机内码是指计算机内部存储、处理加工汉字时所用的代码,要求它与ASCII码兼容但又不能相同,以便实现汉字和英文的并存兼容。输入码经过键盘被接收后就由汉字操作系统的“输入码转换模块”转换为机内码。根据国标码定义机内码,通常将国标码的前两个字节的最高位置“1”作为汉字的机内码。以汉字“啊”为例,其机内码为B0A1H, ⑷ 汉字字形码 字形码是指文字信息的输出编码。文字信息在计算机内部是以二进制形式存储、处理的,当需要显示这些文字信息时,必须通过字形码将其转换为人能看懂且能表示为各种字型字体的图形格式,然后通过输出设备输出。 字形码通常采用点阵形式,不论一个字的笔划多少,都可以用一组点阵表示。每个点即二进制的一位,由“0”和“1”表示不同状态,如明、暗或不同颜色等特征,表现字的型和体。一种字形码的全部编码就构成“字模库”简称“字库”。根据输出字符要求的不同,每个字符点阵中点的多少也不同。点阵越大,点数越多,分辨率就越高,输出的字形也就越清晰美观。 汉字字型有16×16、24×24、32×32、48×48、128×128点阵等,不同字体的汉字需要不同的字库。点阵字库存储在文字发生器或字模存储器中。字模点阵的信息量是很大的,所占存储空间也很大。以16×16点阵为例,每个汉字就要占用32个字节。 ⑸ 各种编码之间的关系 各种汉字编码使用的场合及其之间的关系如下图所示。 汉字通常通过汉字输入码,并借助输入设备输入到计算机内,再由汉字系统的输入管理模块进行查表或计算,将输入码(外码)转换成机器内码存入计算机存储器中。当存储在计算机内的汉字需要在屏幕上显示或在打印机上输出时,要借助汉字机内码在字模库中找出汉字的字型码,在输出设备上将该汉字的图形信息显示或打印出来。当要与其它设备进行信息交换时,需要进行机内码和交换码之间的转换。 二、输入码、区位码、国标码与机内码的联系与区别 我们知道,键盘是当前微机的主要输入设备,;输入码就是使用英文键盘输入汉字时的编码。目前,我国已推出的输入码有数百种,但用户使用较多的约为十几种,按输入码编码的主要依据,大体可分为顺序码、音码、形码、音形码四类,如“保”字,用全拼,输入码为“BAO”,用区位码,输入码为“1703”,用五笔字型则为“WKS”。 计算机只识别由0、1组成的代码,ASCII码是英文信息处理的标准编码,汉字信息处理也必须有一个统一的标准编码。我国国家标准局于1981年5月颁布了《信息交换用汉字编码字符集——基本集》,代号为GB2312-80,共对6763个汉字和682个图形字符进行了编码,其编码原则为:汉字用两个字节表示,每个字节用七位码(高位为0),国家标准将汉字和图形符号排列在一个94行94列的二维代码表中,每两个字节分别用两位十进制编码,

文档评论(0)

1亿VIP精品文档

相关文档