21数据与文字的表示方法(含数据校验150917)汇编.ppt

21数据与文字的表示方法(含数据校验150917)汇编.ppt

  1. 1、本文档共156页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
21数据与文字的表示方法(含数据校验150917)汇编

2-1 数据与文字的表示方法 计算机组成原理 2 Outline 2.1 非数值数据表示法 2.2 数值数据表示法 2.3 数据信息的校验 3 2.1 非数值数据表示法 字符表示法 characters 汉字表示法 Chinese characters 4 2.1.1 Character representation … 如何使用数值表示字符数据 Standards ASCII-American Standard Code for Information Interchange (ANSI 7bits) EBCDIC-Extended Binary-Coded Decimal Interchange Code (IBM 8bits) Unicode 5 128 Standard ASCII codes 52 Letters a-z, A-Z 10 Digits 0-9 34 Symbols ! @ # $ % ^ * ( ) … 32 Control characters CR DEL ESC LF … 6 ASCII 使用7bit表示128个字符 From 000 0000 to 111 1111 27=128 注意:ASCII中的数字字符和数字本身不相等 几乎所有计算机均支持该代码集 但不是所有语言都能用128个字符表示 8Bit=1字节 ,MSB=0 7 Terminology 计算机利用寄存器存储数据 寄存器中每个位称bit (Binary DigiT) 最高有效位 (MSB) 最低有效位 (LSB) 8 2.1.2 汉字表示法 英文键盘输入汉字--输入编码: 数字编码:国标区位码,区码和位码各用两位十进制数字表示,例如“中” 区位码为5448。 GB2312-80《信息交换用汉字编码字符集》 国标码是四位十六进制数,区位码则是四位的十进制数 特点:无重码,但难记。 拼音码:重码率高,需要会读拼音: 犇 猋 骉 蟲 麤 毳 淼 掱 垚 烜 屾 字形编码:五笔字型输入法 9 2.1.2 汉字表示法 汉字信息在计算机中的存储、交换、检索等--汉字内码 8 bit数据仅能表示256个字符,常用汉字6000多个,故其无法表示汉字 GB2312国家标准采用16位表示,2个字节 与ASCII字符的区别,最高有效位MSB=1 10 GB2312-80国家标准 1981年,GB2312-80国家标准,包括6763个汉字/682个非汉字字符,称为国标码 GB2312字符集的构成: 一级常用汉字3755个,按汉语拼音排列 二级常用汉字3008个,按偏旁部首排列 非汉字字符682个 11 汉字标准 GB2312-1980(GB0)(简体) 6763个汉字 GB13000-1993 20902个汉字 (Unicode 1.1版本) 汉字扩展规范GBK1.0 标准1995(非国家标准) 21003个字符(兼容GB2312) GB18030-2000(1/2/4字节编码) 27484汉字 (向下兼容GB2312 GBK,GB13000) 宋体 隶书 微软雅黑 华文琥珀 12 字模码介绍 字模码是用点阵表示的汉字字型代码,是汉字的输出形式。 字模点阵的信息量是很大的,所占存储空间也很大。以16*16为例,每个汉字要占用32个字节, 因此字模点阵只能用来构成汉字库,而不能用于机内存储。 13 Charset META content=text/html; charset=gb2312 … http-equiv=Content-Type charset=gb2312 简体中文 charset=big5 繁体中文 charset=EUC_KR 韩语 charset=Shift_JIS 或 EUC_JP 日语 charset=KOI8-R/Windows-1251俄语 charset=iso-8859-2 中欧语系 charset=utf-8 unicode多语言 14 Unicode 用于克服字符数字的限制 为所有语言中的字符分配唯一的代码 16 bit 字符集, 17个平面,一共有17*65536=1114112个码位 (每个平面有2^16=65536个码位 ) 提供唯一的代码 不论任何平台 不论任何程序 不论任何语言 Unicode目前定义的99089个字符,其中包括71226个汉字,平面2的43253个字符都是汉字。平面0上定义了27973个汉字 15 Universal Character Set ISO UCS通用字符集 –ISO 10646 包含了用于表达所有已知语言的字符 UTF (UCS Transform

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档