(全新)数字媒体及应用.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
?? 1、文本概述 ?? 文字:一种书面语言,由一系列称为“字符”(character)的书写符号构成。 ??文本:文字信息在计算机中的表示形式,是基于特定字符集的、具有上下文相关性的一个(二进制编码)字符流,是计算机中最常用的一种数字媒体。组成文本的基本元素是字符,字符在计算机中采用二进制编码表示。 2、文本处理 ?? 文本在计算机中的处理过程:文本的准备(如汉字的输入)、文本编辑、文本处理、文本存储与传输、文本展现等,根据应用的不同,各个处理环节的内容和要求可能有很大的差别。 5.1.1 文本的表示与字符的编码 ?1、文本的表示 ??文本是计算机表示文字及符号信息的最常用也是最基本的一种数字媒体。由于文字和符号采用了二进制编码表示,因而可以方便地进行编辑、排版和各种分析处理(如统计、排序、分类、索引、检索等)。 2、西文字符集编码 ? 字符集:常用字符的集合。 ? 西文字符集:由拉丁字母、数字、标点符号及一些特殊符号组成。 ? 字符的编码:字符集中每一个字符各有一个代码,即字符的二进制表示,称为该字符的编码。 (1) 标准ASCII编码字符集。 ??美国标准信息交换码(American Standard Code for Information Interchange):使用7个二进位对字符进行编码(叫做标准ASCII码),称为ISO - 646标准。基本的ASCII字符集共有128个字符,其中包括96个可打印字符(常用字母、数字、标点符号等),32个控制字符。 常用的特殊字符的ASCII码:空格(32)、A(65)、B(66)、…、Z(90)、a(97)、b(98)、…、z(122)、数字0(48)、1(49)、…、9(57)。 ??其编码规则为:用7位二进制数对每一个字符进行编码(字符的ASCII码),在计算机内部则用字符的ASCII码存储和表示该字符。在计算机中的存储方法是:用一个字节(8位)来存储一个字符的ASCII码。每个字节中多出来的最高位一般保持为“0”。 ?(2)扩充ASCII编码字符集。 ? 标准ASCII字符集只有128个不同的字符,在很多应用中无法满足要求。按照IS02022标准(《七位字符集的代码扩充技术》)的规定,ISO陆续制定了一批适用于不同地区的扩充ASCII字符集,每个扩充ASCII字符集分别可以扩充128个字符,这些扩充字符的编码均是高位为“1”的8位代码(十进制数128~255),称为扩展ASCII码。 3、汉字编码字集 (1) GB2312-80汉字编码字符集。 ?《信息交换用汉字编码字符集·基本集》(GB2312-80),其组成部分包括: ? 第一部分:字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个(统称为GB2312图形符号)。 ? 第二部分:一级常用汉字,共3755个,按汉语拼音排列。 ?第三部分:二级常用字,共3008个,按偏旁部首排列。 ?? ① 区位码:GB2312国标字符集构成一个二维平面,它分成94行、94列,行号称为区号,列号称为位号。每一个汉字或符号在码表中都有各自的位置,字符的位置用它所在的区号(行号)及位号(列号)来表示。每个汉字的区号和位号分别用1个字节来表示。如:“大”字的区号20,位号83,区位码是2083,用2个字节表示为01010011B(即十六进制1453H)。 ???② 国标交换码:将GB2312字符集中每个汉字的区号和位号必须分别加上32(即二进制0010? 0000,十六进制20H),就可以得到该汉字的“国标交换码”(简称交换码)。因此,“大”字的国标交换码是01110011B(即十六进制3473H)。 ? ③ 机内码:把一个汉字看作两个扩展ASCII码,使表示GB2312汉字的两个字节的最高位(b7)都等于“1”。这种高位为1的双字节(16位)汉字编码就称为GB2312汉字的“机内码”,又称内码。即将汉字的区号和位号必须分别加上160(即二进制1010 0000,十六进制AOH),就可以得到该汉字的“机内码”。如:“大”字的机内码是11110011(即十六进制B4F3H)。 ? 综上所述,可以总结如下公式:国标码=区位码+2020H,机内码=区位码+A0A0H。 ???(2)GBK汉字编码字符集。 ??? GB2312-80只有6763个汉字,使用时功能不够。1995年发布GBK,全称为《汉字内码扩展规范》?? GBK字符集中一共有21003个汉字和883个图形符号,它与GB2312国标汉字字符集及其内码保持兼容。它除了包含GB2312中的全部汉字和符号,还包括繁体字和中、日、韩文字中的大量汉字。 ? GBK的编码是用2字节编码表示,

文档评论(0)

xiaofei2001128 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档