- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第5章 数字媒体及应用5.1 文本与文本处理 5.2 图像与图形 5.3 数字声音及应用5.4 数字视频及应用第1页,共91页。5.1 文本与文本处理 5.1.1 字符的编码5.1.2 文本准备5.1.3 文本的分类5.1.4 文本编辑、排版与处理5.1.5 文本的展现 第2页,共91页。文字数值语言音乐图像···信息的形态有多种文字处理是计算机应用的基础计算机应用=使用计算机进行信息处理其中,文字信息处理是涉及面最广的一种计算机应用,几乎与任何领域任何人都有关。第3页,共91页。写作写作编辑印刷排版发行 传统的文字处理过程第4页,共91页。(3)文本处理文本编辑与排版(文本处理软件)(文本编辑器)格式化的电子文本(文字与图表 的输入)文本准备文本存储与传输文本展现电子文本(2)(文本阅读器)(1)(4)(5)(存档/通信软件)计算机文字处理过程文字信息在计算机中称为“文本”(text),文本是计算机中最常用的一种数字媒体文本由一系列 “字符”(character)组成,每个字符均使用二进制编码表示文本在计算机中的处理过程是:第5页,共91页。5.1.1. 字符在计算机中的表示 第6页,共91页。X X X X X X X0一、西文字符的编码——ASCII码西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号以及一些特殊符号所组成美国标准信息交换码(ASCII码):ASCII字符集包含96个可打印字符和32个控制字符采用7个二进位进行编码计算机中使用1个字节存储1个ASCII 字符存在问题:字符集太小(只有128个字符)不同国家和地区使用不同的字符集及其编码,互不兼容东亚地区使用的大字符集无法编码第7页,共91页。位号 ………………123941一级汉字(3755个)二级汉字(3008个)(扩充使用)字母、数字和各种符号 …… ……916区 号(按汉语拼音排列)5556(按偏旁部首排列)8794GB2312汉字编码字符集1980年颁布《信息交换用汉字编码字符集·基本集》(我国第一个国家标准)——GB2312-1980GB2312字符集由三个部分构成:拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个共6763个汉字和682个符号,每个汉字和符号都有一个确定位置第8页,共91页。区位码:GB2312国标字符集构成一个二维平面,它分成94行、94列,行号称为区号,列号称为位号。问题:文本中的汉字与西文字符易与单字节的标准ASCII码混淆不清。例如:“大”字的区号20,位号83,区位码是20 83,用2个字节表示为01010011(1453H)。这种高位为 l 的双字节(16位)汉字编码就称为GB2312汉字的“机内码”,又称内码。例如:“大”字的内码是11110011(B4F3)。第9页,共91页。汉字的区位码、国标码、机内码的关系: 国标码=区位码+2020H 机内码=国标码+8080H 机内码=区位码+A0A0H汉字机内码双字节,最高位是1;西文字符机内码单字节,最高位是0。第10页,共91页。X X X X X X XX X X X X X X1 X第1字节第2字节GBK汉字内码扩充规范 GB2312的不足:汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整理、古典文献研究等应用的需要;与ASCII码不兼容GBK汉字内码扩充规范(1995):在GB2312基础上,增加了1万多汉字(包括繁体字)和符号共有21003个汉字和883个图形符号,如“計算機”、冃、冄、円、冇等繁体字和生僻字 与GB8312保持向下兼容,也使用双字节表示,第1字节最高位必须为“1”:第11页,共91页。UCS/Unicode多文种大字符集背景:为了实现全球数以千计的不同语言文字的统一编码方案:ISO将全球所有文字字母和符号集中在一个字符集中进行统一编码(目前共收集了17x216=1,114,112 个) ,称为UCS/UnicodeUCS/Unicode的编码方案:先实现部分字符的编码(共107,361个字符)尽量与已有编码标准兼容其中包含有中、日、韩统一整理出来的近3万汉字(CJK汉字)允许有若干不同的编码方案, 例如:第12页,共91页。GB18030汉字编码标准背景:无论是Unicode的UTF-8还是UTF-16,其CJK汉字字符集虽然覆盖了我国已使用多年的GB2312和GBK标准中的汉字,但它们的编码并不相同为了既能与UCS/Unicode编码标准接轨,又能保护我国已有的大量
原创力文档


文档评论(0)