- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉字国标码
二、信息的表示与存储 大学计算机基础 2.4 非数值数据的表示与存储 主要内容 1.字符编码 2.汉字编码 3.多媒体信息表示 128个常用字符,用7位二进制编码,最高位为0,从0到127 控制字符34个:0~32,127; 普通字符:94个。 例如:“a”字符的编码为110 0001,61H,对应的十进制数是97; 空格 20H 32 ‘0’~‘9’ 30H~39H 48~57 ‘A’~‘Z’ 41H~5AH 65~90 ‘a’~‘z’ 61H~7AH 97~122 1.字符编码(ASCII码) (American Standard Code for Information Interchange) 2.汉字编码 拼音 五笔等 GB2312-1980标准汉字字符集,规定在不同的汉字系统中进行汉字交换时使用的编码,简称国标码,两个字节。 汉字在机器内部的表示形式,是内部存储,处理,传输汉字的代码,两个字节表示一个汉字。 为了区分西文字符的机内码,每个字节的最高位设为1. 每个汉字字形码在汉字字库中的相对位移地址 (1) 汉字输入码 ① 数字编码: 用4位数字代表一个汉字,如国标区位码、电报码等。 GB2312标准将6763个汉字和700多个符号分成94个区,每个区存放94个汉字和符号。无重码,但是记忆困难。 如:大 2083 工 2504 十进制 ② 拼音编码: 以汉语拼音为基础的输入法,常用有智能ABC、微软拼音、紫光、全拼、搜狗等。(简单易学,重码,拼音为基础) ③ 字形编码: 以汉字的形状确定的编码,如五笔字型、表形输入法。(无重码,快,专业人员) 汉字国标码(GB2312-80)也称汉字交换码, 共收录7445个汉字符号。能表示6763个常用汉字和一些符号。 每个汉字用两个字节、以16进制表示。 汉字分成94个区,每个区存放94个汉字或符号。由区号和位号构成区位码。区位码加上32就构成国标码。 计算机是如何区分字符与汉字的编码呢? (2)汉字国标码 为了在计算机中使用汉字,1981年,国家标准局公布了GB2312-80标准汉字字符集,规定了在不同的汉字系统中进行汉字交换时使用的编码,简称国标码。 汉字机内码是汉字在机器内部的表示形式,是计算机内部存储、处理、传输汉字的代码。 为区别ASCII码,机内码采用将汉字国标码的每个字节的最高位设为1,形成了在计算机内部用来进行汉字存储、运算的编码。 以汉字“大”为例,国标码为34 73H, 二进制: 0011 0100 0111 0011 国标码 二进制: 1011 0100 1111 0011 机内码 B 4 F 3 34 73H+80 80H=B4 F3H,得到机内码为B4F3H 国标码转换为机内码:国标码+8080H=机内码 (3)汉字机内码 汉字 区位码 国标码 汉字机内码 大 2083 347301110011)B 11110011)B 工 2504 190400000100)B 10000100)B 计算机处理字符数据时,当遇到最高位为1的字节,便将该字节连同其后续最高位为1的另一个字节看做一个汉字;当遇到最高位为0时,则可看做一个ASCII码西文字符,这样就实现了汉字、西文字符的共存和区分。 (4)汉字字形码 汉字的字形码通常有两种表示方式,即点阵和矢量表示方式。 用点阵表示字形时,字形码指的是这个汉字字形点阵的代码。 点阵表示:用点阵表示的码,是汉字的输出形式。它把汉字排成点阵 常用16×16、24×24、32×32、48×48或更高二进制位来存储。 一个16*16点阵的汉字字形占用32个字节,24*24要占用72个字节。 编码、存储方式简单、无需转换直接输出 这类点阵字库汉字最大的缺点是不能放大,一旦放大后就会发现文字边缘的锯齿。 ASCII码的字母存储的也是字母的图片,编码与点阵图片一一对应,需要时调用这个图片,就可以显示对应的字符。 矢量表示:该方式存储的是描述汉字字形的轮廓特征。 矢量方式与点阵相反,矢
文档评论(0)