第3讲--字符和汉字的信息编码.docVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第3讲--字符和汉字的信息编码

第3讲 字符和汉字的信息编码 P4-11 这节课是最专业的基础课,要全力理解其中难点,否则… 美国著名的科学家冯·诺依曼提出的程序和数据采用二进制代码表示,为现代计算机发展奠定了基础。 为了互相传递和处理字符和汉字等信息,通过各种输入设备输入的每一个字符(如:数字、字母、符号等)和汉字,到计算机内部都有一个统一的二进制编码(机内码),一一对应表示。 计算机中字符的编码表示:P6 计算机开始只在美国用。字节八位一共可以组合出256(2的8次方)种不同的状态。把所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示,一直编到了第127号,ASCII(美国国家信息交换标准)码,如字母“a”的ASCII码是:十进制数是97(二进制编码是1100001),其它部分字符的ASCII码见课本P6页的表1.2.3。 标准ASCII码使用一个字节的7位(最高位作符号位:0为+、1为-),因此最多可表示128个字符{ 0~(1111111)2 = (127)10 } 。 要注意字母和数字的ASCII码的大小排列规律:(经常要考到) 字母: A B C D E ...... X Y Z 其它字符 a b c d e ... x y z ASCII码:65 66 90 97 98 122 数字: 0 1 2 3 ...... 8 9 ASCII码:48 49 50 56 57 注意:“其它字符”有6个,上面表的ASCII码是用十进制表示,但电脑里往往用十六进制表示,例如“A”的十六进制编码是:41 基本的考题往往告诉你一个字符(例如“b”)的ASCII码98(十进制),请你写出另一个字符 (例如“X”)的ASCII码?(十进制)。 计算机中汉字的编码表示:P7 1、汉字的信息交换码(又称国标码,即汉字库GB2312): 标准ASCII码使用一个字节的7位的不同的状态127个空格、标点符号、数字、大小写字母多个常用汉字保存但是这难不倒智慧的中国人民,我们规定:一个小于127的字符的意义与原来相同,但两个大于127的连在一起时,就表示一个汉字GB2312中对应的二进制编码是: 0011010101100111B 用十六进制编码表示是: 3 5 6 7 H 这样我们就可以汉字。我们把数学符号、罗马希腊的字母、日文的假名都编进去了,连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码,汉字库GB2312 2个字节编码的汉字库GB2312,汉字从16区开始编排,前15个区我们可以对其它字符、符号进行2个字节编码,包括原来的128个标准ASCII码字符(半角),我们可以给与2个字节编码(全角:相当于取个中文姓名),我们把2个字节编码的字符全角字符,而ASCII码用1个字节编码的字符叫半角字符半角全角Abc123Abc123 所以,汉字编码字符集GB2312是对 ASCII 的中文扩展。文本编辑软件UltraEdit文本编辑软件其中“电”的十六进制编码是:B5 E7; 2个字节! “脑”的十六进制编码是:C4 D4; 2个字节! “A”的十六进制编码是: 41。 1个字节! ... 2、汉字的信息交换码的第二种形式区位 ? ??演示:汉字库GB2312,观察里面的字符、汉字编码,发现: 我国制定的信息交换码GB2312将代码表分为94个区(对应第一字节);每个区94个位(对应第二字节),因此也称为区位码。01-09区为符号、数字区,16-87区为汉字区,10-15区、88-94区是有待进一步标准化的空白区。 例:“阿”的区位16-87区为汉字区按拼音字母a、b、c、d...排列(例如:第16区a拼音字母开始,第17区b拼音字母开始,...; 见P8的区位码表示图)。 区位码是汉字库GB2312国标码的一种表示方法(国际码=区位码(十六进制)+2020H);当时的区位码好处是便于查找其中的汉字等字符(例如:查“电”的区位码),并设计了区位码输入法来输入汉字,但要查区位码表来输入汉字等字符,效率很低;现在有各种高效的输入法(例如:搜狗输入法、五笔字型输入法等),所以区位码输入法基本不用了。 3、汉字的信息交换码的第三种形式处理码(机内码一个占两个字节,每个字节最高位“0”;英文字符的内码7位ASCIl码,最高位也是0国标码(“g”; 所以,0011010101100111也可表示:“#g”,为避免这样的不确定性,我们把“电”的国标码处理码为了在计算机内能够区分是汉字编ASCIl码,将码的每个字节的最高位设置为“1”十六进制,UltraEdit查到

文档评论(0)

baoyue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档