- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第4章?文本输入与处理技术 文字在计算机中的表示 文字的编码方法 文字信息处理 文字在版面设计中的原则 文字信息在计算机中的描述、记录、显示和处理,都要以文字的数字化编码为基础。 数字化文字技术分为西文和中文两大类。 西文大多属于拼音和字母文字,基础字符比较少,而且容易按一定顺序排列,数字化比较简单。 而中文数量大、字形复杂、同音字多、异体字多等特点,使其在计算机内部的表示、处理、传输、交换、输入、输出带来了一系列的问题,同时也给汉字编码工作带来了相当大的难度,排序方法多样。 英文字母编码 由于计算机用二进制数,故文字信息、符号也要转换成二进制数所进行编码,国际上统一用美国标准信息编码,ASCII码,American Standard Code for Information Interchange。 ASCII码被国际标准化组织为国际标准ISO646。它用于计算机内码,也用做数据通信中的编码标准。 ASCII码标准规定,一个ASCII码占一个字节(长度为8位)的低7位,其中最高位为校验位,用于传输过程检验数据正确性。其余7位二进制数表示一个字符,这样一个字节可表示2的7次方即128种状态,(01111111)。 每种编码状态与一个ASCII码字符唯一对应,即可表示27=128个字符,其中包括26个英文大写字符、26个英文小写字符、10个数字字符、33个标点符号和33个控制符。ASCII码采用7位二进制数比特编码,可以表示128个字符。 字符又分为图形字符与控制字符两类。图形字符包括数字、字母、运算符号、商用符号等。例如大写A的ASCII码是65,小写a则是97。 128个ASCII码字符的编码规则 ASCII码扩展字符的编码 汉字编码 用计算机进行汉字处理,首先必须将汉字代码化,即对汉字进行编码,称为汉字输入码。 汉字输入码送入计算机后还必须转换成汉字内部码,才能进行信息处理。 处理完毕之后,再把汉字内部码转换成汉字字型码,才能在显示器或打印机输出。 因此汉字编码有输入码、内码、字型码三种。 汉字从输入到输出,首先要用汉字的输入码(外码)将汉字输入,再用对应的内码存储并处理汉字,最后用汉字的字型码将汉字输出、显示或打印。 汉字的输入码 目前,为了能直接使用西文标准键盘输入汉字,必须给汉字设计相应的输入编码方法。 编码方案有很多种,主要分为以下三类 数字编码 拼音码 字形编码 ★数字编码?? 常用的是国标区位码,用数字串对应汉字输入。 区位码是将国家标准局公布的6763个两级汉字分为94个区,每个区分94位,即将汉字表示成二维数组,每个汉字在数组中的位置坐标就是区位码。区码和位码各两位十进制数字,因此输入一个汉字需按键四次。 例如“中”字位于第54区48位,区位码为5448。数字编码输入的优点是无重码,输入码与内部编码的转换比较方便,缺点是代码难以记忆。 ★ 拼音码??? 拼音码是以汉语拼音为基础的输入方法。凡掌握汉语拼音的人,不需训练和记忆,即可使用,容易掌握,但汉字同音字太多,输入重码率很高,因此按拼音输入后还必须进行同音字选择,影响了输入速度。 常见的有双拼、全拼、微软拼音、智能ABC、搜狗拼音、紫光拼音等。 ★ 字型编码 字型编码是用汉字的形状来进行的编码。汉字总数虽多,但是由一笔一划组成,全部汉字的部件和笔划其实是有限的。因此,把汉字的笔划部件用字母或数字进行编码,按笔划的顺序依次输入,就能表示一个汉字了,与手工书写自然融合,输入速度较高,重码率低,但字根(笔划)与键位对应关系难记。 例如五笔字型编码是最有影响的字形编码方法。 汉字的机内码 汉字的机内码是供计算机系统内部进行存储、加工处理、传输统一使用的代码。 目前使用最广泛的一种为两个字节长的机内码。这种格式的机内码是将国标 GB2312-80 交换码的两个字节的最高位分别置为l而得到的。 其最大优点是机内码表示筒单,且与交换码之间有明显的对应关系,同时也解决了中西文机内码存在二义性的问题。 例如“中”的国标码为十六进制: 544801001000), 其对应的机内码为十六进制: D4C811001000)。 汉字的机内码与国标码的关系: ◆十六进制: 机内码区号(16)=国标码高位字节+80H 机内码位号(16)=国标码低位字节+80H ◆十进制: 机内码区号=国标码高位字节(10)+128 机内码位号=国标码低位字节(10)+128 汉字的区位码与国标码的关系: ◆十六进制: 国标码高位字节=区位码区号(16)+20H 国标码低位字节=区位码位号(16)+20H ◆十进制: 国标码高位字节
文档评论(0)