数据编码地基本方式.ppt

  1. 1、本文档共63页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据编码地基本方式

中文信息的编码与表示(2) 汉字字符集与编码:1981年我国颁布了《信息交换用汉字编码字符集——基本集》(GB2312-80) 。 汉字的输入:(1)数字编码、(2)拼音编码、(3)字形编码 汉字的机内码:是指计算机系统内部为存储、处理和传输汉字而使用的代码,简称内码,是汉字在设备或信息处理系统内部最基本的表达形式。 * * 汉字编码 4、汉字的输出:如要显示或打印出来,必须把汉字的机内码转换成人们可以阅读的方块字形式。 5、汉字信息处理的工作过程 * 汉字编码(续) 输入码 数码:由数字组成的编码,代码和汉字一一对应,无重码,但编码规则较难记忆,如区位码,电报码。 音码:用汉字拼音字母组成的编码,容易学,但重码多,输入速度不高,如拼音码等。 形码:把汉字的基本构件偏旁、部首和字根等分类,和不同的键相对应,如五笔字型码、表形码、首尾码等。 音形码:根据汉字的读音并兼顾汉字字型而设计的编码,如自然码、声韵部形码、快速输入码等。 * 汉字编码 汉字国标码(GB2312-80) 每个汉字占两个字节。 一级汉字:3755个;二级汉字:3008个。 汉字分区,每个区94个汉字。 机内码 计算机系统内部处理和存储汉字时所用的代码,简称内码。 汉字 国标码 汉字内码 中 868001010000)B 11010000)B 华 594200101010)B 10101010)B 区号 区中位置 * 汉字编码(续) 输出码:又称字型码或字模点阵码。 点阵字形(“1”表示对应位置是黑点、“0”表示是空白) 轮廓字形(用曲线描述,精度高、字形可变,如:Windows中的TrueType) * 汉字编码(续) 汉字字形码 点阵:汉字字形点阵的代码 有16×16、24×24、32×32、48×48等编码、存储方式简单、无需转换直接输出,放大后产生的效果差 矢量:存储的是描述汉字字形的轮廓特征 矢量方式特点正好与点阵相反 * 汉字的“中国”,“中”的区位码是“5448”,“国”的区位码是“2590”。通过加“20H”,得到“中国”的国标码分别是“5650H”和“397AH” * 输入码是解决汉字输入采用的编码,如“国标区位码”、“全拼”、“双拼”、“五笔”、“智能ABC”、“搜狗拼音”等输入编码。 每一种输入码之所以能存在,是因为各有其特点。如果有人问,哪种输入码最好,回答是“你熟练掌握的那种输入码就是最好的”。 输入码 * 我国在1980年制定了《信息交换用汉字编码字符集·基本集》作为国家标准GB2312-80编码字符集,称为国标码。GB2312-80中规定了信息交换用的6763个汉字和682个非汉字图形符号(包括字母、数字和符号,例如英文、俄文、日文平、片假名等)的代码。 在国家标准GB2312-80中,每个汉字采用双字节表示。每个字节只用ASCII码中的低7位,最高位为0。 国标码采用十六进制表示。每个汉字的区位码同时对应一个国标码。 国标码 * 十六进制编码 十进制编码 区位编码 国标码编码 ? 00……20? 21 22 23 24 25 26 …………7C 7D 7E 7F 00~20 位 区 1 2 3 4 5 6 ………………91 92 93 94 ? 21~2F 1~15 非汉字图形符号(常用符号、数字序号、俄文、英文、法文、希腊字母、日文平、片假名等) ? 30~57 16~55 啊 阿 埃 一级汉字 (3755个) ? 58~77 56~87 二级汉字(3008个) ? 78~7E 88~94 空白区域 ? 7F ? ? ? * 由于低7位中只有94种状态可用于汉字编码(其它34位是控制字符,不能用),所以两个字节的低7位共有94 × 94 = 8836种不同的状态。 国标码将6763个汉字和682个非汉字字符(共7445个)划分为94个区,每个区又分为94位,称其为区位表。每个汉字在区位表中有唯一的一个区位码(四位十进制数,前两位数是区号,后两位数是位号)与之对应,称之为“区位码”。 例如,汉字“啊”在区位表中的编码是“1601”,既区号是“16”,位号是“01”。 * GB2312-80统一规定了汉字的基本编码标准,但是要存储在计算机中与西文编码在计算机中的表示有冲突。 例如,英文字符“L”和“1”的ASCII码是“76”和“108”,而汉字的“天

文档评论(0)

泰山之颠 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档