- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[高等教育]第5章 数字媒体及应用2004级下
第5章 数字媒体及应用 学习目标与要求 理解 GB2312,GBK 和 GB18030 三种汉字编码标准的内容和特点。 理解文本在计算机中的表示方法。 懂得数字图像和图形的概念,以及在计算机中的表示方法。了解图像和图形压缩编码标准。 了解数字声音在计算机中的表示。了解声音压缩编码标准。 了解数字数字视频的概念。了解视频压缩编码标准。 什么是数字媒体? 计算机应用的实质就是使用计算机进行信息处理。 人们用于表达和传递信息的媒体是:数值、文字、图像、图形、声音、视频等。 本章研究在计算机中怎样表示、处理、存储和传输媒体。 数字媒体就是数值 、文字、声音、图像、图形、声音、视频等的二进制表示。 数值信息的表示在第 1 章已经介绍。 5.1 文本与文本处理 字符 (character) 是记录语言的符号,它适用于一种或多种书面语言。 字符集 (character set) 相关的多个字符的集合称为字符集。 文本: 基于特定字符集的、具有上下文相关性的一个字符流,每个字符均使用编码表示。 如:一个记事本文档、一个 Word 文档 5.1 文本与文本处理 编码字符集 编码字符集 (coded character set) 按某种规则编码的字符的有序集合。每个编码字符集有两个最重要的属性: 字汇(repertoire):编码字符集中有哪些字符。 编码规则:如何确定每个字符的代码。 码长: 字符编码的长度。它决定了代码空间的大小 定长码:7位,8位,双字节,4字节 可变长码:单-双-4字节码 5.1.1 字符的编码 – 西文 西文字符集:由拉丁字母、数字、标点符号及一些特殊符号组成。 西文字符的编码:对字符集中每一个字符各有一个二进制编码,通常记为十进制数或十六进制数。 5.1.1 字符的编码 – 西文 标准ASCII码 —— 美国标准信息交换码(American Standard Code for Information Interchange)。它已被 ISO 批准为国际标准。 使用 7 个二进位对字符进行编码。 每个 ASCII 字符以一个字节存放(8位,最高位为0) 如: 5.1.1 字符的编码 – 西文 标准的ASCII字符集共有128个字符,其中含: 96个可打印字符(常用字母、数字、标点符号等) 32个控制字符 一般要记住几个特殊字符的 ASCII 码: 空格(32)、A(65)、a(97)、0零(48) 规律:数字、字母的 ASCII 码是连续的;对应大小写字母 ASCII 码相差 32。 5.1.1 字符的编码 – 西文 标准ASCII字符集只有128个不同的字符,在很多应用中无法满足要求。( ISO 646 标准 ) 扩展ASCII码:将标准ASCII码的最高位置1,得到十进制数代码 128~255,称为扩展ASCII码,可代表扩展的另128个字符。 ( ISO 2022 标准 ) 扩充ASCII字符集 标准ASCII字符集 + 扩展字符集 5.1.1 字符的编码 – 汉字 汉字的特点: 数量大(我国汉字自古至今累计已超过7万字, 国家语委语言文字工作委员会 颁布的 “现代汉语通用字表” 包含7000汉字) 多个国家和地区使用:港台地区,日、韩、朝、新、马等 字形复杂,同音字多,异体字多。 我国汉字编码的国家标准: GB2312-80(6763个常用简体汉字和682个图形符号) GBK-95(21003个汉字和883个图形符号) GB18030-2000(27000 多个汉字) GB2312-80 字符集及其码位分布 《 信息交换用汉字编码字符集 · 基本集 》 GB2312 构成:包括 6763 个汉字和 682 个非汉字字符 一级常用汉字 3755 个,按汉语拼音排列 二级常用汉字 3008 个,按偏旁部首排列 非汉字字符 682 个 GB2312 构成一个二维平面,分成 94 行和 94列, 行号称为区号,列号称为位号。唯一标识一个汉字。 GB2312字符集及其码位分布 GB2312-80 字符集及其码位分布 将区位码的区号和位号分别加上 32(20H),得到国标交换码(十六进制的) 将国标码的两个字节的最高位置 1(加128,即80H),得到 PC 机常用的机内码(十六进制的) GB2312字符集及其码位分布 GB2312字符集及其码位分布 课堂练习 GBK汉字内码扩充规范 问题:GB2312-80只有6763个汉字,数量较少。 解决方法:1995年发布GBK,全称为《汉字内码扩展规范》GBK字符集中一共有21003个汉字和883个图形符号,它与GB2312国标汉字字符集及其内码保持兼容。 GBK/1:GB2312中的符号;GBK/2:GB2312中的全部汉字; G
文档评论(0)