数字媒体应用 专转本..pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数字媒体及应用 文本与文本处理 文字信息在计算机中称为“文本”(text) 文本由一系列 “字符”(character)组成 文本在计算机中的处理过程是: 西文字符的编码——ASCII码 西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号以及一些特殊符号所组成 美国标准信息交换码(American Standard Code for Information Interchange, 简称ASCII码): ASCII字符集包含96个可打印字符和32个控制字符 采用7个二进位进行编码 计算机中使用1个字节存储1个ASCII 字符 存在问题: 7位代码空间太小(解决方案:8位的扩充ASCII码) 不同国家和地区使用不同的字符集及其编码,互不兼容 汉字的编码 汉字是记录汉语(国语,华语)的文字,属于表意文字, 汉字的特点: 数量大(我国汉字自古至今累计已超过7万字,国家语委颁布的“现代汉语通用字表”包含7000汉字) 多个国家和地区使用:港台地区,日、韩、朝、新、马等 字形复杂,同音字多,异体字多。 我国汉字编码的国家标准: GB2312-81(6763个常用简体汉字和682个非汉字字符 ) GBK-95 (21003个汉字和883符号) GB18030-2000 GB2312汉字编码字符集 1980年颁布《信息交换用汉字编码字符集·基本集》——GB2312-1980 GB2312字符集由三个部分构成: GB2312汉字编码 区位码 用汉字在码表中的位置进行编码,区号和位号分别用7个二进制表示。 区号+位号 “大” 区号20 位号83 区位码 2083 0010100 1010011 国标码 为了避免与ASCII通信控制码产生冲突,区号和位号必须分别加上32 “大” 20+32 83+3200110100 机内码 由于汉字与西文字符经常混用,必须与单字节的ASCII码区分开来,采用的方法之一就是把一个汉字看作两个扩展ASCII码,是两个字节的最高为都为1,称为机内码。 “大” 10110100 用16进制表示就是 B4F3 GB2312汉字的编码 每一个GB2312汉字使用16位(2个字节)表示 每个字节的最高位均为“1” 在16位代码空间中的码位分布: GB2312汉字编码的不足之处 GB2312汉字字数太少,无法满足一些特殊应用的需要: 人名、地名; 古籍整理、古典文献研究。 没有繁体字 编码效率不高: (6763+682)/65536 与ASCII码不兼容 GBK字符集及其码位分布 共收入 21003 个汉字和883图形符号 双字节编码 简体和繁体汉字在同一个字符集中; 与GB2312-81保持向下兼容; 微软的简体中文版OS和办公室软件均采用此 几种汉字编码的对比 文本的准备 文本信息的输入:人工输入和自动识别输入 键盘输入 键盘面向西文设计,一或两个西文字符对一个按键,非常方便,键盘上的一个键不能表示一个汉字(由多个键表示) 汉字编码方法 数字编码:一串数字来表示汉字,如:电报码、区位码,优点:无重码,缺:记忆难 字音编码:基于汉语拼音,如:简拼、双拼、全拼、智能ABC,优点:易记忆,缺:重码多。 字形编码:将汉字的字型分解归类而给出的,如:五笔字型,优点:重码少,缺:记忆难 形音编码:吸取字音编码与字形编码优点,优点:重码少,缺:不好掌握 文本的分类与表示 按是否具有编辑排版格式来分: 简单文本(plain text) / 丰富格式文本(rich text) 按文本内容的组织方式来分: 线性文本 / 超文本(hypertext) 简单文本(纯文本、ASCII文本,线性) 表达正文内容的字符,回车、换行、制表控制字符, 不包含其他任何格式和结构信息 丰富格式文本(线性) 纯文本经过排版后,增加了格式说明和结构说明信息。 不同软件制作的丰富格式文本相互并不兼容 RTF (公用的中间格式)可以在不同的软件和系统间互换使用。 超文本 (非线性) 采用一种网状结构来组织信息,各信息块按照其内容互相连接。一个超文本由若干文本块组成,可以从一个文本块跳到另一个文本块,也可以内部跳转,其中的文本块称为节点,是围绕某个特定主题组织起来的信息块,把节点联系起来的指针称为超链 超媒体 例子:网页、帮助文件 文本的编辑(使文本内容正确,版面清晰整齐、美观大方): 对字、词、句、段落进行添加、删除、修改等操作; 字的处理:设置字体、字号、字的排列方向、间距、颜色、效果等; 段落的处理:设置行距、段间距、段缩进、对称方式等; 页面布局处理:设置页边距、每页行列数、分栏、页眉、页脚等。 文本处理(Te

文档评论(0)

586334000 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档