文本获取与 处理教材编辑.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第2章 文本获取与处理 主讲教师 胡永斌 数据单位 计算机存储数据时的最小单位是位(bit),一个bit可以存储一个二进制数。存储数据的基本单位是字节(Byte),简记为B。规定一个字节等于8个位,即1Byte=8bit。一个字节可以保存一个英文字符,一个汉字要占用两个字节。 计算机的存储器是以字节为单位,每个字节都有一个地址编码,通过地址找到某个字节来存取数据。由于二进制的原因,存储容量的倍数用千表示,千等于1024。1KB=1024B;1MB=1024KB;1GB=1024MB;1TB=1024GB。 4 2.1 文本的基本知识 在计算机中,文字和数值都是用二进制编码表示的,文字信息、数值信息、符号信息统称为文本信息。   对于具备中英文处理能力的计算机来说,文本信息则主要由ASCII码表所规定的字符集(包括字母、数字、特殊符号等)和汉字信息交换码所规定的中文字符集中的字符组合而成,习惯上把前者称为西文字符,而把后者称为中文字符。计算机处理文字信息主要包括输入、编辑、存储、输出等。 5 2.1.1 西文字符 西文字符是指由ASCII码表所规定的字符集,包括字母、数字、特殊符号等。ASCII是英文American Standard Code for Information Interchange的缩写,意为“美国信息交换标准代码”。 1、字符编码(ASCII码):用7位二进制数表示,共能表示27=256个不同的字符,包括了计算机处理信息常用的26个英文大写字母A~Z、26个英文小写字母a~z,数字符号0~9、算术与逻辑运算符号、标点符号等。 在计算机中,每一个西文字符均对应一个ASCII码,例如,字母A的ASCII码值为十进制数65,小写字母a的ASCII码为十进制数97。 7 2、字符外观及存储: 每一个字符的外形可被绘制在一个M x N的方格矩阵中,如又图(a)所示。 在图中,笔画经过的方格有点用1表示,未经过的方格无点用0表示,这样形成的0、1矩阵成为字符点阵。若M=N=8,可依水平方向按从左到右的顺序将0、1代码组成字节信息,每行一个字节,从上到下共形成8个字节,如右图(b)所示。这就是字符外观的点阵编码,用点阵编码存储字符外观。 8 3、字符显示过程 将所有字符的点阵编码按照其在ASCII码表中的位置顺序存放,就形成了一个字符点阵库。从ASCII码转换成字符点阵的功能称为字符发生器。通过字符发生器完成字符的显示过程。 9 2.1.2 中文字符 中文字符(即汉字)是指由汉字信息交换码所规定的中文字符集,全称为“信息交换用汉字编码字符集”,是我国国家标准总局于1981年5月1日颁发的,也称为国标码集,标准名简写为GB2312-80,共收入了6763个汉字,682个数字和图形符号,并规定一个汉字的编码用两个字节表示,称此编码为汉字内码。国标GB18030-2000,收录了27000个汉字。 中文字符处理的过程:首先将所有的汉字在给定的方格内绘制出点阵图像,然后按照0、1矩阵形成字节编码,再将所有汉字的点阵字节编码按照其在汉字码表中的位置顺序存放,形成汉字点阵字库。 10 2.1.5 文本与超文本文件 3种类型的文本文件: 1、无格式文本文件 只存储文字信息本身,文字以固定大小和风格输出,因而也称为纯文本,,通常保存为.txt类型的文件。 2、格式文本文件 不仅包含文字信息,还包括文字的字号、颜色、字体以及其他用于规定输出格式的排版信息 。编辑这类文件,可设置文本的字体、字号、颜色、字形(正常、加粗、斜体、下划线、上标、下标等)、字间距、行间距和段间距等。格式文本要用功能较强的字处理软件来编辑,如MS Word和金山WPS等。 11 图2-7 格式文本 12 3、超文本文件 超文本文件是建立在非线性的超文本概念基础上的,它将文本内容按其内容含义分割成不同的文本块,再按其固有的逻辑关系通过超链接组织成非线性的网状结构,从而提供了一种符合人们思维习惯的联想式阅读方式。纯粹的超文本文 图2-8 超文本文件的逻辑结构定义 件是由超文本标记语言(HTML)和被分割的不同文本块按照HTML规定的格式要求组成的。 13 图2-9 (a) 超文本文件实例 (b) 浏览效果 用超文本描述语言定义的超文本文件需要用相应的浏览器浏览才能按照其非线性组织方式阅读内容。图2-9给出了一个具体的超文本文件实例和浏览效果。 当超文本文件中的内容不仅包含文本块,而且还包含图片、声音、视频、动画等多种媒体信息,且通过超级链接实现各种媒体信息的组合使用时,这种超文本文件就又被称为超媒体或超媒

文档评论(0)

youngyu0301 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档