了解文本媒体的编码方式培训讲义 .pptVIP

  • 17
  • 0
  • 约8.69千字
  • 约 39页
  • 2016-02-04 发布于贵州
  • 举报
了解文本媒体的编码方式培训讲义

任务2 了解文本媒体的编码方式 5.2.1 文本媒体的分类和表示 5.2.2 常用的编码方式 5.2.3 文本的编辑和处理 文本媒体的分类和表示 文字是一种书面语言,它由一系列字符组成,包含中文和西文。 文字信息在计算机中称为“文本”,它是计算机中最常用的一种数字媒体,在计算机中采用二进制编码表示。 文本的分类 根据它们是否具有排版格式,文本可分为简单文本、丰富格式文本和超文本三大类。 (1)简单文本 简单文本又称为纯文本,是由一连串字符或汉字的编码组成,它几乎不包含任何其他的格式信息和结构信息,其文件后缀名是.txt。Windows附件中的记事本程序所编辑处理的文本就是简单文本。 简单文本(纯文本 ) 文本的分类 (2)丰富格式文本 在日常生活中,为了文本能美观、醒目的展现给用户,人们通常需要对纯文本进行加工、排版,这样的文本就是“丰富格式文本”,如微软公司的Word软件所处理的DOC文件、Adobe公司的Acrobat软件所处理的PDF文件等。 在丰富格式文本中,除正文之外,还有许多用来说明文本的版面结构、内容组织、文字属性的信息,这些信息被称为“标记”,这些标记及其使用规则被称为“标记语言”。不同的软件使用的标记语言并不相同,相互之间不一定兼容。为了便于丰富格式文本在不同的软件和系统中互换使用,一些公司还联合提出了一种公用的中间格式,称为RTF格式。 丰富格式文本 本书由南京大学出版社(Publishing House of Nanjing University)出版 文本的分类 超文本:它是用超链接的方法,将各种不同空间的文字信息组织在一起的网状文本。 超链接是有向的,起点位置称为链源,它可以是网页中的一个标题、一个句子、一副画等;目的地称为链宿,它可以是另一个网页(在本网站或其他网站中),也可以是同一个网页中的其他部分。 超文本的格式有很多,目前最常使用的是超文本标记语言(Hyper Text Markup Language,HTML) 及丰富文本格式(Rich Text Format,RTF)。 超文本(www网页) WWW网页按照其内容的关联性相互进行链接,网页就是典型的 “超文本” 超文本也属于丰富格式文本 小结:文本的分类 文本的输入 使用计算机制作文本,首先要向计算机输入该文本所包含的字符信息。 人工输入: 即通过键盘完成信息输入,某些场合也会使用语音输入和联机手写输入等方法。 人工输入速度慢、成本高、使用方便。 印刷体自动识别技术。 该技术是将纸介质上的文本通过识别技术自动转换为文字的编码。 这种输入方式速度快、效率高,通常应用于需要大批量输入文字资料的档案管理、图书情报等应用领域。 文字符号输入计算机的方法 汉字的键盘输入 汉字与键盘上的键无法一一对应,因此必须使用几个键来表示一个汉字,这就称为汉字的“键盘输入编码” 优秀的汉字键盘输入编码应具有的特点: 易学习、易记忆 效率高(平均击键次数较少) 重码少 容量大(可输入的汉字字数多) 汉字键盘输入方法的比较 文本的输出 文本的输出通常分为打印输出和屏幕输出。 由于存放在计算机存储器中的文本是数字形式的、不可见的,因此,无论是打印还是屏幕显示,它们都需要专门的软件进行文本格式的翻译和显示。 承担文本输出任务的软件称为阅读器或浏览器,如微软的Word、IE浏览器,Adobe公司的Adobe Reader等。 输出过程中字形的生成 过程: 先根据字符的字体确定相应的字库(font), 再按照该字符的代码从字库中取出该字符的形状描述信息 然后按形状描述信息生成字形,并按照字号大小及有关属性(粗体、斜体、下横线)将字形作必要的变换 最后将变换得到的字形放置在页面的指定位置处 2种不同的字库: 西文字符的编码 西文字符是由拉丁字母、数字、标点符号及一些特殊符号组成 目前在计算机中使用最广泛的是标准ASCII字符集及其编码。 ASCII码又称为美国标准信息交换码,国际上通用的是7位二进制数版本,共128个元素。 西文字符的编码 汉字的编码 汉字的历史源远流长,世界四分之一的人口使用汉字,汉语被联合国列为法定六种正式语言和工作语言之一。 中文文本的基本组成单位是汉字,汉字数量大,同音、异体字多,它们在计算机内部的表示与处理则是一个非常重要的问题。 目前汉字编码主要有GB2312、GBK、GB18030等。 常用的汉字编码字符集 国家标准GB2312-1980 汉字扩充规范 GBK (已被GB 18030取代) 国家标准GB18030-2005 港澳台使用的汉字编码字符集CNS 11643 (BIG 5,俗称“大五码”) UCS/Unicode多文种大字符集 Unicode的UTF-8 Unicode的UTF-16 GB2312汉字编

文档评论(0)

1亿VIP精品文档

相关文档