ch02 计算机中信息的表示.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
举例:二进制整数的表示范围 引入 信息的最小单位 —— 比特(bit) 用比特表示图像 举例:若机器数采用原码表示, 求-5+4=? 若将符号位同时和数值参加运算,则有: 3种整数表示法的比较 BCD码(了解) BCD整数(Binary Coded Decimal)称为“二进制编码的十进制整数”,使用一个4位二进制数 表示 一个十进制数字(0~9),最高位仍为符号位。 4位二进制数字位上的权值自右向左是23(8)、22(4)、21(2)、20(1),也称8421码。 例如: (-51)BCD = 1 0101 0001 (+32767)BCD = 0 0011 0010 0111 0110 0111 实数(浮点数)的表示范围和类型 浮点数的长度可以是32位(单精度浮点数)、64位(双精度浮点数)或更长。 位数越多,可表示的数的范围越大(阶码位数决定),精度越高(尾数位数决定)。 字符、字符集及其编码表 文字的基本元素是字母和符号,统称为“字符” (character),它包括:字母、数字、标点、符号等。 字符集:一组特定字符的集合。 不同的字符集包含的字符数目与内容不同,如: 中文字符集、西文字符集、日文字符集等。 字符的编码: 字符集中每个字符的二进位表示,称为该字符的编码或代码(code) 不同的字符其编码各不相同 汉字如何编码? 汉字是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素,有多个国家和地区使用(中、日、韩、新、马······) 汉字的特点 数量大;字形复杂,同音字多,异体字多 如何编码? 确定收录多少字、哪些字? 在字符集中如何排列? 使用多少个二进位进行编码? 常用的汉字编码字符集 国家标准GB2312-1980 汉字扩充规范 GBK (已被GB 18030取代) 国家标准GB18030-2005 港澳台使用的汉字编码字符集 BIG 5(俗称“大五码”) UCS/Unicode多文种大字符集 组成: (1)第一部分:字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个(统称为GB2312图形符号) (2)第二部分:一级常用汉字,共3755个, 按汉语拼音排列 (3)第三部分:二级常用汉字,共3008个, 按偏旁部首排列 汉字共6763个 字符共7445个 GB2312-80是一个二维代码表, 有94行、94列, 汉字在代码表中的位置用它所处的行号、列号表示。 例如: “大”字的区号20,位号83, 区位码是20 83 用2个字节表示为: 01010011 GBK汉字内码扩充规范 GB2312的不足: 汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整理、古典文献研究等应用的需要;与ASCII码不兼容 GBK汉字内码扩充规范(1995): 在GB2312基础上,增加了1万多汉字(包括繁体字)和符号 共有21003个汉字和883个图形符号,如“計算機”、冃、冄、円、冇等繁体字和生僻字 与GB2312保持向下兼容,也使用双字节表示,第1字节最高位必须为“1”: UCS/Unicode多文种大字符集 背景:为了实现全球数以千计的不同语言文字的统一编码 方案:ISO将全球所有文字字母和符号集中在一个字符集中进行统一编码(目前共收集了17x216=1,114,112 个) ,称为UCS/Unicode UCS/Unicode的编码方案: 先实现部分字符的编码(近11万个字符) 尽量与已有编码标准兼容 包含有中、日、韩统一整理出来的约7万汉字(称CJK汉字) 允许有若干不同的编码方案, 常用的两种是: GB18030汉字编码标准 背景:无论是Unicode的UTF-8还是UTF-16,其CJK汉字字符集虽然覆盖了我国已使用多年的GB2312和GBK标准中的汉字,但它们的编码并不相同 为了既能与UCS/Unicode编码标准接轨,又能保护我国已有的大量汉字信息资源,我国在2000年和2005年两次发布GB18030汉字编码国家标准。 GB18030实质上是UCS/Unicode字符集的另一种编码方案: 单字节编码(128个)表示ASCII字符 双字节编码(23940个)表示汉字,与GBK(以及GB2312)保持向下兼容,GBK不再使用 四字节编码(约158万个)用于表示 UCS/Unicode中的其他字符 GB18030目前已在我国信息处理产品中强制贯彻执行。 小结:几种汉字编码的对比 BIG5码是台湾、香港等地使用的繁体汉字的编码标准,它用双字节进行编码。收录了13461个汉字和符号。 (

文档评论(0)

danli208 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档