- 1、本文档共156页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
21数据与文字的表示方法(含数据校验150917)汇编
2-1 数据与文字的表示方法
计算机组成原理
2
Outline
2.1 非数值数据表示法
2.2 数值数据表示法
2.3 数据信息的校验
3
2.1 非数值数据表示法
字符表示法 characters
汉字表示法 Chinese characters
4
2.1.1 Character representation …
如何使用数值表示字符数据
Standards
ASCII-American Standard Code for Information Interchange (ANSI 7bits)
EBCDIC-Extended Binary-Coded Decimal Interchange Code (IBM 8bits)
Unicode
5
128 Standard ASCII codes
52 Letters
a-z, A-Z
10 Digits
0-9
34 Symbols
! @ # $ % ^ * ( ) …
32 Control characters
CR DEL ESC LF …
6
ASCII
使用7bit表示128个字符
From 000 0000 to 111 1111 27=128
注意:ASCII中的数字字符和数字本身不相等
几乎所有计算机均支持该代码集
但不是所有语言都能用128个字符表示
8Bit=1字节 ,MSB=0
7
Terminology
计算机利用寄存器存储数据
寄存器中每个位称bit (Binary DigiT)
最高有效位 (MSB) 最低有效位 (LSB)
8
2.1.2 汉字表示法
英文键盘输入汉字--输入编码:
数字编码:国标区位码,区码和位码各用两位十进制数字表示,例如“中” 区位码为5448。
GB2312-80《信息交换用汉字编码字符集》
国标码是四位十六进制数,区位码则是四位的十进制数
特点:无重码,但难记。
拼音码:重码率高,需要会读拼音:
犇 猋 骉 蟲 麤 毳 淼 掱 垚 烜 屾
字形编码:五笔字型输入法
9
2.1.2 汉字表示法
汉字信息在计算机中的存储、交换、检索等--汉字内码
8 bit数据仅能表示256个字符,常用汉字6000多个,故其无法表示汉字
GB2312国家标准采用16位表示,2个字节
与ASCII字符的区别,最高有效位MSB=1
10
GB2312-80国家标准
1981年,GB2312-80国家标准,包括6763个汉字/682个非汉字字符,称为国标码
GB2312字符集的构成:
一级常用汉字3755个,按汉语拼音排列
二级常用汉字3008个,按偏旁部首排列
非汉字字符682个
11
汉字标准
GB2312-1980(GB0)(简体)
6763个汉字
GB13000-1993
20902个汉字 (Unicode 1.1版本)
汉字扩展规范GBK1.0 标准1995(非国家标准)
21003个字符(兼容GB2312)
GB18030-2000(1/2/4字节编码)
27484汉字 (向下兼容GB2312 GBK,GB13000)
宋体 隶书 微软雅黑 华文琥珀
12
字模码介绍
字模码是用点阵表示的汉字字型代码,是汉字的输出形式。
字模点阵的信息量是很大的,所占存储空间也很大。以16*16为例,每个汉字要占用32个字节,
因此字模点阵只能用来构成汉字库,而不能用于机内存储。
13
Charset
META content=text/html; charset=gb2312
… http-equiv=Content-Type
charset=gb2312 简体中文 charset=big5 繁体中文 charset=EUC_KR 韩语 charset=Shift_JIS 或 EUC_JP 日语 charset=KOI8-R/Windows-1251俄语 charset=iso-8859-2 中欧语系charset=utf-8 unicode多语言
14
Unicode
用于克服字符数字的限制
为所有语言中的字符分配唯一的代码
16 bit 字符集, 17个平面,一共有17*65536=1114112个码位 (每个平面有2^16=65536个码位 )
提供唯一的代码
不论任何平台
不论任何程序
不论任何语言
Unicode目前定义的99089个字符,其中包括71226个汉字,平面2的43253个字符都是汉字。平面0上定义了27973个汉字
15
Universal Character Set ISO
UCS通用字符集 –ISO 10646
包含了用于表达所有已知语言的字符
UTF (UCS Transform
文档评论(0)