第一章 计算机汉字处理概述.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一章 计算机汉字处理概述.ppt

第一章 计算机汉字处理概述 1.1 编码及汉字处理 1.1.1 英文字符与ASCII码 用计算机处理文字符号时,英文字母、数字和各种符号必须按约定的规则用二进制编码在机器中表示。 其中使用得最广泛的是美国信息交换标准码(American Standard Code for Information Interchange),缩写为ASCII。现在已被国际标准化组织(ISO)认定为国际标准,并在世界范围内通用。 ASCII码有两个版本:7位版本和8位版本。国际上通用的是7位版本。7位版本的ASCII码有128个元素,十进制编码值为O-127,其中通用控制字符33个,控制字符不对应任何可显示或打印的实际字符,主要是用于控制计算机某些外围设备的工作和某些计算机的运行情况。另外的95个字符则是计算机终端能输入并且可以显示的字符,其中大、小写英文字母52个,阿拉伯数字10个,各种标点符号和运算符号33个。 第一章 计算机汉字处理概述 1.1.2 汉字及其特点 汉字的文字量很大,最新的字典中有汉字六万多个,常用字也有几千个。 汉字的字形复杂,是一种二维的方块字,每个汉字又可以分为笔画、字根、整字等几个层次,无法直接使用计算机的英文键盘。 汉字有多种字体,为了适应不同的需求,就要备有多种不同字形的汉字库。 汉字的发音呈多样化,一字多音与多字同音的现象屡见不鲜。 汉字的字义复杂,同一汉字在不同情况下使用,可以代表多种含义。 汉字排序难,英文只有26个字母,排序很容易,而汉字数量大、结构复杂、同音字多。 第一章 计算机汉字处理概述 1.1.3 计算机汉字处理 文字信息处理的应用范围非常广泛,编辑文稿、建立文件档案资料、排版印刷等。文字信息处理的实质就是把文字信息数字化,就是用一个固定的数码代表一个字母或文字,这一数码就叫做“代码”。在计算机内部处理文字信息时,就可以像处理纯数字一样来进行。 计算机文字处理包括以下三个方面: 文字信息的输入(主要指各种输入方法) 文字信息的处理(主要指各种编辑方法) 文字信息的输出(主要指显示和打印的方法) 汉字信息处理就是对文字信息中的汉字信息进行处理的过程。 第一章 计算机汉字处理概述 1.2 汉字字库 计算机能处理汉字时,需要在计算机中存有汉字的字模(字形)。 每个汉字分别写在一个划分为M行、N列的网格方块内,方块内的每个小方格是一个点,有笔画的方格涂成黑点,用二进制中的数字1代表;没有笔画的方格内部空白,用二进制中的数字0代表,这样一个汉字,就可以用若干个二进制数字来表示了。这个方块就叫做一个M×N的点阵。点阵数越大,所表现的字形越精确、越逼真,所占用的存储量也越大。 汉字字形按其存储方式可分为整字存储和压缩存储两大类。压缩的方法很多,应用较广泛的矢量法就是其中之一。 汉字字模除了字模尺寸和点阵大小的规格外,还要求有多种字体。存储这些信息的存储器叫做汉字库(或称汉字字模库)。 第一章 计算机汉字处理概述 1.3 汉字的编码 1.3.1计算机的汉字内部码 汉字内部码也称为内码或机内码。内码是在设备和系统内部处理时所使用的汉字代码,一个汉字的内码一般用两个字节来表示。 计算机处理汉字实际上是处理汉字的代码,汉字内码包括存储码、运算码和传输码三种。 内码通常是用汉字在字库中的物理位置来表示的,如用字库中的序号或存储位置来表示。两字节内码一般不与西文字符编码发生冲突,并与标准交换码有比较简明的对应关系,这样中西文兼容性较好。 第一章 计算机汉字处理概述 1.3.2 计算机的汉字交换码 汉字交换码是在系统间或计算机间进行通讯或信息交换时用的代码,它是中文信息处理技术的基础,各系统或计算机所用的汉字交换码应该完全一致。 我国使用的交换码的标准主要有两个: GB1988(信息处理——信息交换用ISO编码字符集),它与国际通用的基本代码集相同,主要是字母、数字和符号等字符。 GB2312-80(国标基本集),它是我国规定的标准汉字交换码,在该集中每个符号用两字节表示,每个字节仅用低7位二进制位,最高位为0。基本集的汉字内码与国标码(交换码)有一个明确的对应关系,即国标码加上8080(十六进制)就得到其内码。 微机在英文文本工作方式时,输入码、交换码、存储、运算和传输都是用ASCII代码。 第一章 计算机汉字处理概述 1.3.3 计算机的汉字输出码 汉字输出码也称汉字字形码。对汉字字形点阵数字化后的一串二进制数,就叫做汉字的输出码。在显示和打印时,要将内码转换成相应的点阵信息,在屏幕上显示出来或在打印机上打出来。 常用的汉字的打印设备有针式打印机、喷墨打印机和激光印字机等品种。针式

文档评论(0)

sis_lxf + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档