网站大量收购闲置独家精品文档,联系QQ:2885784924

第2章 文本.pptVIP

  1. 1、本文档共73页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第2章文本ppt课件

南京大学多媒体研究所 第2章 文本 内容 一、编码 二、文本输入 三、文本处理 四、文本显示 什么是文本(text)? 文本是计算机表示文字信息的一种媒体 文本是一个字符流,它由一连串的字符组成 文本处理过程: 电子文本的两种形式 扫描文本 是纸介质文本经过扫描输入后得到的,实质上是一种特殊的位图图像(bitmap)。 合成文本 也称为编码文本,它是基于特定字符集的、具有上下文相关性的一个字符流,每个字符均使用编码表示。这是计算机中常用的文本形式 文本的分类 按是否格式化分: 简单文本(plain text) / 丰富格式文本(rich text) 按结构分: 线性文本 / 超文本(hypertext) 一、编码 几个编码标准 ASCII ISO8859-1… GB2312 GB12345 GBK CJK BIG5 UCS Unicode UTF-8 UTF-16 UTF-32 GB18030 ASCII 计算机中使用得最广泛的西文编码字符集:美国标准信息交换码(American Standard Code for Information Interchange, 简称ASCII码),后来被批准为ISO-646-US标准 ASCII字符集中: 96个可打印字符+32个控制字符 采用7位二进制进行编码 ASCII码/ ISO-646-US标准 ISO-646的本地化 ISO 646的不足 7位代码空间太小, 不同国家和地区使用不同的标准,难以兼容, 东亚地区使用的大字符集无法编码, 扩充ASCII字符集 ISO 8859 扩充ASCII字符集(举例) MS-Windows 的code page 代码页实际上就是各个不同的字符集。微软公司在开发DOS和Windows的各文种产品时,将各文种的字符集加以整理,并对每个具体的代码页都赋以一个代号,称作“代码页ID”。比如:CP1252代码页是ISO 8859-1的扩充,是ISO 8859-1的超集 汉字的编码 汉字(Chinese character, Han character, Hanzi)是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素。中文文本的基本组成单位是汉字字符。 汉字的特点 数量大(我国汉字自古至今累计已超过7万字,国家语委颁布的“现代汉语通用字表”包含7000汉字) 多个国家和地区使用:香港,台湾地区,以及日本、韩国、朝鲜,新加坡,马来西亚等。 字形复杂,同音字多,异体字多。 汉字正形 同一个宋体字有不同笔画或不同结构的,选择一个便于辨认,便于书写的形体; 同一个字宋体和手写楷书笔画结构不同的,宋体尽可能接近手写楷书;不完全根据文字学的传统。 GB2312-1980 1981年颁布,《信息交换用汉字编码字符集·基本集》。 GB2312字符集由三个部分构成 字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个(统称为GB2312图形符号); 一级常用汉字,共3755个,按汉语拼音排列; 二级常用字,共3008个,因不太常用,所以按偏旁部首排列。 GB2312-80的字符集及字符布局 GB2312-80汉字交换码 GB2312-80汉字内码 GB12345-1990 GB2312-80是面向简体汉字的编码。 为了使用繁体汉字,特制订了繁体汉字字符集的国家标准(信息交换用汉字编码字符集--辅助集GB12345-1990) 。 兼容GB2312,含 717 个图形符号, 6866 个汉字 简体、繁体相同的汉字,编码保持不变, 对应1个繁体字的,替换为对应的繁体字,如繁体字“燈”,只对应一个简体字“灯”。 对应多个繁体字的,替换为最常用的那个繁体字,其它对应繁体字放在扩充区。如简体字“发”,对应“發”、“髮”2个 繁体字。在“发展”一义时,用“發展”,在“头发”一义时用“頭髮”。再如“复”字,在“复杂”一义时用“複雜”,在“反复”一义时用“反復”。这样的简体字有300多个。 GB2312和GB12345的不足 GB2312汉字字数太少,无法满足一些特殊应用的需要: 人名、地名; 古籍整理、古典文献研究。 简体和繁体分属于2个字符集,在简、繁体汉字同时使用时,很不方便。 《汉字内码扩展规范》GBK GBK全称《汉字内码扩展规范》(1995年) 向下与 GB 2312 编码兼容 向上准备向ISO 10646.1 国际标准过渡,是一个承上启下的标准。 GBK 规范收录了 ISO 10646.1 中的全部 CJK 汉字和符号,并有所补充 GB 2312中的全部汉字(GBK/2) 其他CJK汉字和增补的汉字(GBK/3和GBK/4),共21003个汉字 另外还有883个图形符号(GBK/1, GBK/5)

文档评论(0)

118zhuanqian + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档