第5讲-第1章数据表示和编码.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第5讲-第1章数据表示和编码

第1章 数据的表示与编码 ; 主要内容: 字符的编码——ASCII码(掌握) 汉字的编码(理解) Unicode码(了解) 静态图像的编码(了解) 动态数据的编码(了解) ;随着现代计算机运用的深入,计算机不仅仅进行科学计算,实际上更大量的工作是用于处理人们日常工作和生活中最常使用的信息形式,也就是所谓的非数值型数据,包括语言文字、逻辑语言、视频图像等非数值信息。这需要为计算机找到一种合适的方法来表达这些信息。 计算机中使用了不同的编码来表示和存储数字、文字符号、声音、图片和图像(视频)信息。 编码(或代码)通常指的是一种在人和机器之间进行信息转换的系统。编码是人们在实践中逐步创造的一种用较少的符号来表达较复杂信息的表示方法。 ;1、 字符的编码 —ASCII码 字符是非数值型数据的基础,字符与字符串数据是计算机中用得最多的非数值型数据。在使用计算机的过程中,人们需要利用字符与字符串编写程序、表示文字及各类信息,以便与计算机进行交流。为了使计算机硬件能够识别和处理字符,必须对字符按一定规则用二进制进行编码,使得系统里的每一个字母有唯一的编码;文本中还存在数字和标点符号,所以也必须有它们的编码。 美国最先制定了符合他们使用需要的美国标准信息交换代码(American Standard Code for Information Interchange),简称ASCII码。;ASCII码包含7位二进制编码,可表示27=128个不同的字符。 标准ASCII码表可以看成由三部分组成: 第一部分:00H~1FH,共32个编码,一般用来通讯或作为控制来用,有些则不能显示,但能看到其效果(如换行、退格)。 如表1-4所示。;表1-4 标准ASCII码表:00H~1FH;1.3 非数值信息的编码;表1-5 标准ASCII码表:20H~7FH; 1.3 非数值信息的编码;1.3 非数值信息的编码;表1-6 扩展 ASCII码表: 80H~FFH;2、汉字编码 计算机只识别由0、1组成的代码,ASCII码是英文信息处理的标准编码,汉字信息处理也必须有一个统一的标准编码。 汉字进入计算机,有许多困难,其原因主要有三点: ①数量庞大:现在汉字总数已超过6万个(包括简化字)。有研究者主张规定3000多或4000字作为当代通用汉字,但仍比处理由二三十个字母组成的拼音文字要困难得多。 ②字形复杂:古体、今体、繁体、简体,而且笔画相差悬殊,少的一笔,多的达36笔,简化后平均为9.8笔。 ③存在大量一音多字和一字多音的现象:以1万个汉字计算,每个不带调的音节平均超过24个汉字,每个带调音节平均超过7.7个汉字。有的同音同调字多达66个。一字多音现象也很普遍。 ;国标码:我国国家标准局于1981年5月颁布了《信息交换用汉字编码字符集——基本集》,代号为GB2312-80,共对6763个汉字和682个图形字符进行了编码。 其编码原则为:汉字用两个字节表示,每个字节占用七位码(高位为0),国家标准将汉字和图形符号排列在一个94行94列的二维代码表中,每两个字节分别用两位十进制编码,前字节的编码称为区码,后字节的编码称为位码,此即区位码;如“保”字在二维代码表中处于17区第3位,区位码即为“1703 ”。 ;1.3 非数值信息的编码;1.3 非数值信息的编码;1.3 非数值信息的编码;1.3 非数值信息的编码;GB2312-80标准未能覆盖繁体中文字、部分人名、方言、古汉语等方面出现的罕用字,所以不能满足少数用字量超过基本集的用户和台湾、香港等地的需要。 2000年3月17日,中华人民共和国发布了新的汉字编码国家标准GB18030-2000《信息交换汉字编码字符集基本集的扩充》,2001年8月31日后在中国市场上发布的软件必须符合本标准。 GB18030-2000 包含27484个字。;汉字在计算机中的处理过程: ; 汉字输入方法:键盘输入、语音输入、手写输入等。 键盘输入方式:将每个汉字用一个或几个英文键表示,这种表示方法称为汉字的“输入编码”。 汉字输入编码的种类: 字音编码:如搜狗、智能ABC等。 字形编码:如五笔字型等。 汉字输出编码:操作系统必须输出以点阵形式组成的汉字字形码。各种汉字字形码以一定的规则存储于汉字库中。通过地址码即可找到要输出汉字在汉字库中的位置。 ;3、 Unicode码 Unicode即统一码,又称万国码,是一种在计算机上使用的字符编码。 Unicode码采用唯一的16位模式来表示每一个符号,每个字符占用2个字节。 因此,Unicode可以表示65536个不同的字符。 Unicode包含了GB18030里面的所有汉字。;Unicode为每种语言中的每个字

文档评论(0)

sy78219 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档