- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第3章 文本处理技术
本章概述
本章的学习目标
主要内容
多媒体技术及应用 第3章 文本处理技术 第1页
本章概述
文本(Text)是多媒体信息最基本的表示形式之一,可以清
楚、准确地表达思想,描述概念,叙述事实等。它是人们
最熟悉的信息表示方式,例如,文章,书等都以文本形式
出现。
文本的最显著的特点是在组织上是线性的和顺序的。在计
算机系统中,文字和数值都是用二进制编码表示的,文字
信息和数值信息统称为文本信息。
与其他媒体相比,文本是最容易处理、占用存储空间最
少、最方便利用计算机输入和存储的媒体。
本章主要介绍了文本的基本知识,文本的获取及处理。
多媒体技术及应用 第3章 文本处理技术 第2页
本章的学习目标
理解文本的基本知识
掌握常用的文本获取方法
熟练掌握文本的编辑
掌握电子图书的制作
多媒体技术及应用 第3章 文本处理技术 第3页
主要内容
3.1 文字信息在计算机中的表示
3.2 文本的类型
3.3 获取文本信息
3.4 处理文本信息
3.5 本章小结
多媒体技术及应用 第3章 文本处理技术 第4页
3.1 文字信息在计算机中的表示
文本是以文字和各种专用符号表达的信息形式,
它是现实世界中使用的最多的一种信息存储和传
递方式,主要用于对信息的描述性表示。
计算机系统通过指定的二进制编码来存储数字、
字母和其它字符。因此,要想在计算机中表示文
字信息,需要将文字用二进制编码的形式表示出
来。
在计算机系统中,西文字符和汉字的编码方式是
不同的。
多媒体技术及应用 第3章 文本处理技术 第5页
3.1.1 西文编码
ASCII码
►西文采用ASCII码(American Standard Code for
Information Interchange,美国信息交换标准代码)表
示,包括数字、字母、特殊符号等。
►ASCII码用7位二进制数表示一个字符,共能表示
27=128个不同的字符,包括了计算机处理信息常用的
26个英文大写字母A-Z ,26个英文小写字母a-z,数字
符号0-9,算术与逻辑运算符号、标点符号等。
扩展ASCII码
多媒体技术及应用 第3章 文本处理技术 第6页
3.1.2 汉字编码
●国标码
●区位码
●机内码
●输入码
多媒体技术及应用 第3章 文本处理技术 第7页
国标码
我国国家标准局于1981年5月颁布了《信息交换
用汉字编码字符集——基本集》,代号为GB
2312-1980,是国家规定的用于汉字信息处理使
用的代码依据,这种编码称为国标码。
由连续两个字节组成。在国标码字符集中共收录
6763个常用汉字和682个数字和图形字符,其中
一级汉字3755个,按拼音顺
文档评论(0)