- 1、本文档共34页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计算机导论第五讲-字符编码及汉字输入方法
例2: 某汉字的两字节内码的存储顺序用十六进制表示为(C9H, BEH), 试求该汉字的区位码。 解:内码减去160得区位码,故对应的区位码是 (C9H-160, BEH-160) =(C9H-A0H, BEH-A0H) =(29H, 1EH) =(41, 31) 即该汉字在GB2312-80码表中位于41区第31位。 * * * 第三章 字符编码及汉字输入方法 3.1 英文字符集与编码 全部大写、小写英文字母、10个阿拉伯数字、英文标点符号、以及其它常用符号共同组成英文字符集,并进行编码,称为ASCII(美国标准交换代码集)码。 American Standard Code of International Interchange 标准ASCII字符集共有128个符号,编码为0至127。扩展ASCII码字符集有256个符号,即在标准ASCII码字符集之后,增加了128个符号。 显然,一个ASCII码用二进制表示最多为8bits,刚好用一个字节存贮。 (1) 前32个ASCII码为控制字符(不可显示字符) NULL(空字符)—— 0 CR或ENTER(回车键) —— 13 LF(换行)—— 10 (2) 英文字母 大写A-Z: 65 —— 90 小写a-z: 97 —— 122 (3) 数字字符 0,1,…,9 : 48 —— 57 (4) 空格键 ASCII码为32 常用ASCII字符如下: 一、汉字GB2312-80字符集 汉字是一种象形文字,其字数之多居世界各国文字首位。目前通用的汉字,按1979年版《新华字典》计算约12,000个,按1990年版《汉语大字典》计算为54,678个。而日常生活中最常用的汉字也有大约3,500个。为了规范文字以适应计算机信息处理的需要,国家技术监督局于1980年颁布了国家标准《信息交换用汉字编码字符集?基本集》,即国标GB2312-80,作为我国汉字系统必须遵守的国家规范。 3.2 GB2312-80中文字符集与编码 国标GB2312-80共收汉字、字母和图形等符号7445个,按94行?94列排列在一张大码表中。其行号称为区号,列号称为位号。 国标GB2312-80中的全部符号包括: (1)一般符号202个。包括:标点、间隔符、运算符、制表符等。 (2)复合型序号60个,包括:⒈-⒛和⑴-⒇各20个,①-⑩和㈠-㈩各10个。 (3)数字22个。包括数字0-9,罗马数字I-Ⅻ。 (4)大小写英文字母52个、希腊字母48个、俄文字母66个。日文假名169个。 (5)汉语拼音符号26个。 (6)汉语注音字母37个。 (7)汉字6763个。其中,一级汉字3755个,二级汉字3008个。 国标GB2312-80中非,非汉字符号存放在第1区到9区。一级汉字存放在第16区到55区,按拼顺序排列,同音字按起笔横、竖、撇、点、折存放。二级汉字存放在第56到87区,按部首顺序排列。 二、汉字编码 1. 区位码: 一个汉字可由区号和位号唯一决定,称为汉字的区位号码。使用时,先指定是区号,然后指定位号。区号与位号都从1开始编号,1-94。例: 汉字‘啊’(第一个汉字),存放在16区,第1位,其区位码为(16,01)。 2. 国标码:将区位码中的区号和位号分别加上十进制数32,形成一个2字节编码,即 第1字节为:区号+32,第2字节为位号+32。 如:汉字‘啊’的国标码为 (48, 33)。 3. 内码:一个汉字字符存储在计算机的存储器中的编码,其作用与ASCII码相似。 内码也是一个两字节编码,编码方法如下: 第1字节=区号+160,第2字节=位号+160 如:汉字‘啊’的内码是(176, 161) 区位码/国标码/内码转换实例: 例1: 某汉字在GB2312-80码表中位于30区19位,试求该汉字的国标码与内码。 解:国标码为区号、位号分别加32,故对应国标码是 (30+32, 19+32)=(62, 51) 内码为区号、位号分别加160,故对应内码是 (30+160, 19+160)=(190, 179)=(-66, -77)1字节补码 3.3 中文大字符集 一、GBK字符集 全称《汉字内码扩展规范》(GBK),英文名称 Chinese Internal Code Specification ,中华人民共和国全国信息技术标准化技术委员会 1995 年 12 月 1
文档评论(0)