计算机常见编码.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计算机常见编码

计算机常见编码 一. 有关编码的基础知识 1. 位 bit 最小的单元 字节 byte 机器语言的单位 1byte 8bits 1KB 1024byte 1MB 1024KB 1GB 1024MB 2. 二进制 binary 八进制 octal 十进制 decimal 十六进制 hex 3. 字符:是各种文字和符号的总称,包括各个国家的文字,标点符号,图形符 号,数字等。 字符集:字符集是多个符号的集合,每个字符集包含的字符个数不同。 字符编码:字符集只是规定了有哪些字符,而最终决定采用哪些字符,每一 个字符用多少字节表示等问题,则是由编码来决定的。计算机要 准确的处理各种字符集文字,需要进行字符编码,以便计算机能 够识别和存储各种文字。 二. 常见字符集的编码介绍: 常见的字符集有:ASCII 字符集,GB2312 字符集,BIG5 字符集,GB18030 字符集, Unicode 字符集,下面一一介绍: 1. ASCII 字符集: ? 定义: 美国信息互换标准代码,是基于罗马字母表的一套电脑编码系统,主要显示 英语和一些西欧语言,是现今最通用的单字节编码系统。 ? 包含内容: 控制字符(回车键,退格,换行键等) 可显示字符(英文大小写,阿拉伯数字,西文符号) 扩展字符集(表格符号,计算符号,希腊字母,拉丁符号) ? 编码方式: 第 0-31 号及 127 号是控制字符或通讯专用字符; 第 32-126 号是字符,其中 48-57 号为 0-9 十个阿拉伯数字,65-90 号为 26 个 大写英文字母,97-122 号为 26 个英文小写字母,其余为一些标点符号,运 算符号等。 在计算机存储单元中,一个 ASCII 码值占一个字节(8 个二进制位),最高位 是用作奇偶检验位。【奇偶校验是指:在代码传送的过程中,用来检验是否 出错的一种方法。】奇偶校验分为奇校验和偶校验。奇校验规定:正确的代 码一个字节中 1 的个数必须是奇数,若非奇数,则在最高位添 1;偶校验规 定:正确的代码一个字节中 1 的个数必须是奇数,若非奇数,则在最高位添 1。 2. GB2312 字符集: ? 定义: 信息交换用汉字编码字符集。是 中国 标准的简体中文字符集,它所收录的汉 字已经覆盖 99.75%的使用频率,在中国大陆和新加坡广泛使用。 ? 包含内容: GB2312 收录了简化汉字及一般字符,序号,数字,拉丁字母,日文假名, 希腊字母,俄文字母,汉语拼音符号,汉语注音字母,共 7445 个图形字符。 其中包括 6763 个汉字,一级汉字 3755 个,二级汉字 3008 个。 ? 编码方式: GB2312 对所收汉字进行了“分区”处理,每区含有 94 个汉字或者符号,这 种表示方法也叫做“区位码”。 它是用双字节表示的,前面的字节为第一字节,又称“高字节”,后面的为 第二字节,“低字节”。 高位字节,把 01-87 区的区号加上 0xA0(相当于数字 160);低位字节把 01-94 区的区号加上 0xA0(相当于数字 160)。 举个简单的小例子:第一个汉字— —“啊”,它的区号为 16,位号 01,则区位码是 1601。则高字节位: 16+0xA0 0xB0;低字节位:01+0xA0 0xA1,所以“啊”的汉字处理编码为 0xB0A1。 3. GBK 字符集: ? 定义: GBK 是 GB2312 字符集的扩展(K) 中国的中文编码表升级,融合了更多的 中文文字符号。 ,它收录了 21886 个符号,它分为汉字区和图形符号区, 汉字区包括 21003 个字符。GBK 字符集主要扩展了繁体中文字的支持。 4. BIG5 字符集: ? 定义: 又称大五码,由台湾五家软件公司创立。因为当时台湾没有一个标准的字符 集,而且 GB2312 又没有收录繁体字,所以才推出了 BIG5。 ? 包含内容: BIG5 字符集共收录了 13053 个中文字,该字符集在台湾使用。但是没有考虑 到社会上流通的人名,地方用字,方言用字,化学及生物科等用字,没有包 含日文平假名及片假字母。 ? 编码方式: BIG5 也采用双字节存储方法,一两个字节编码一个字。高位字节的编码范围 是 0xA1-0xF9,低位字节的编码范围是0xA1-0xFE。 5. GB18030 字符集: ? 定义: GB18030 字符集标准解决汉字,日文假名,朝鲜语和中国少数民族文字组成 的大字符集计算机编码问题。 ? 包含内容: 该标准的字符总编码空间超过 150 万个编码位,收录了 27484 个汉字,覆盖 中文,日文,朝鲜语和中国少数民族文字。满足中国大陆,香港,台湾,日 本和韩国等东南亚地区信息交换多文种,大字量,多用途,统一编码格式的

文档评论(0)

juhui05 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档