第3章 文本处理技术.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第3章 文本处理技术 本章概述 本章的学习目标 主要内容 多媒体技术及应用 第3章 文本处理技术 第1页 本章概述  文本(Text)是多媒体信息最基本的表示形式之一,可以清 楚、准确地表达思想,描述概念,叙述事实等。它是人们 最熟悉的信息表示方式,例如,文章,书等都以文本形式 出现。  文本的最显著的特点是在组织上是线性的和顺序的。在计 算机系统中,文字和数值都是用二进制编码表示的,文字 信息和数值信息统称为文本信息。  与其他媒体相比,文本是最容易处理、占用存储空间最 少、最方便利用计算机输入和存储的媒体。  本章主要介绍了文本的基本知识,文本的获取及处理。 多媒体技术及应用 第3章 文本处理技术 第2页 本章的学习目标  理解文本的基本知识  掌握常用的文本获取方法  熟练掌握文本的编辑  掌握电子图书的制作 多媒体技术及应用 第3章 文本处理技术 第3页 主要内容 3.1 文字信息在计算机中的表示 3.2 文本的类型 3.3 获取文本信息 3.4 处理文本信息 3.5 本章小结 多媒体技术及应用 第3章 文本处理技术 第4页 3.1 文字信息在计算机中的表示  文本是以文字和各种专用符号表达的信息形式, 它是现实世界中使用的最多的一种信息存储和传 递方式,主要用于对信息的描述性表示。  计算机系统通过指定的二进制编码来存储数字、 字母和其它字符。因此,要想在计算机中表示文 字信息,需要将文字用二进制编码的形式表示出 来。  在计算机系统中,西文字符和汉字的编码方式是 不同的。 多媒体技术及应用 第3章 文本处理技术 第5页 3.1.1 西文编码  ASCII码 ►西文采用ASCII码(American Standard Code for Information Interchange,美国信息交换标准代码)表 示,包括数字、字母、特殊符号等。 ►ASCII码用7位二进制数表示一个字符,共能表示 27=128个不同的字符,包括了计算机处理信息常用的 26个英文大写字母A-Z ,26个英文小写字母a-z,数字 符号0-9,算术与逻辑运算符号、标点符号等。  扩展ASCII码 多媒体技术及应用 第3章 文本处理技术 第6页 3.1.2 汉字编码 ●国标码 ●区位码 ●机内码 ●输入码 多媒体技术及应用 第3章 文本处理技术 第7页 国标码  我国国家标准局于1981年5月颁布了《信息交换 用汉字编码字符集——基本集》,代号为GB 2312-1980,是国家规定的用于汉字信息处理使 用的代码依据,这种编码称为国标码。  由连续两个字节组成。在国标码字符集中共收录 6763个常用汉字和682个数字和图形字符,其中 一级汉字3755个,按拼音顺

文档评论(0)

xingyuxiaxiang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档