- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
字符编码及由来
本文概述:本文从编码的发展历程开始,介绍了ASCII、ASCII扩展字符集、GB2312、GBK、GB18030和BIG5,以及统一编码规范之后的Unicode、UCS2、UCS4、UTF8、UTF16、UTF32、Little Endian和BigEndian。
ANSI的“ASCII”编码(American Standard Code for Information Interchange,美国信息互换标准代码)0~127,用来存储空格、标点符号、数字、大小写字母。ASCII中128~255称为扩展字符集。
GB2312(对ASCII的中文扩展):
GB2312 收录简化汉字及符号、字母、日文假名等共 7445 个图形字符,其中汉字占 6763 个。
编码规定:
其编码范围为:2121H-777EH。一个小于127的字符的意义与原来相同,但两个大于127的字符连在一起时,就表示一个汉字,前面的一个字节(高字节)从0XA1用到0XFE,大约组合出7000多个简体汉字,其中包括数学符号、罗马希腊的字母和日本的假名。且ASCII里原本有的数字、标点、字母都重新编了两个字节长的编码,这就是常说的“全角”,而原来在127一下的那些字符就叫“半角”字符。
GB2312 将代码表分为 94 个区,对应第一字节;每个区 94 个位,对应第二字节,两个字节的值分别为区号值和位号值加 32(2OH),因此也称为区位码。01-09 区为符号、数字区,16-87 区为汉字区,10-15 区、88-94 区是有待进一步标准化的空白区。GB2312 将收录的汉字分成两级:第一级是常用汉字计 3755 个,置于 16-55 区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字计 3008 个,置于 56-87 区,按部首/笔画顺序排列。故而GB2312最多能表示 6763 个汉字。
GBK:
为满足所有汉字的需求,不再要求低字节一定是127号之后的内码,只要第一个字节大于127就固定表示这是一个汉字的开始。GBK包括了GB2312的所有的内容,同时又增加了近20000个新的汉字(包括繁体字)和符号。
GBK 向下与 GB2312 完全兼容,向上支持 ISO 10646 国际标准。GBK 亦采用双字节表示,总体编码范围为 8140-FEFE 之间,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 XX7F 一条线。
GB18030:
GBK的扩展,增加了几千个新的少数民族的字。
以上统称为DBCS(Double Byte Character 双字节字符集)。在DBCS系列标准里,最大的特点是两字节长的汉字字符和一字节长的英文字符并存于同一套编码方案里,因此在程序中为了支持中文处理,必须要注意字串里的每一个字节的值,如果这个值大于127,则认为一个双字节字符集的字符出现了。
GB18030 是最新的汉字编码字符集国家标准, 向下兼容 GBK 和 GB2312 标准。 GB18030 编码是一二四字节变长编码。一字节部分从 0x0~0x7F 与 ASCII 编码兼容,二字节部分。首字节从 0x81~0xFE, 尾字节从 0x40~0x7E 以及 0x80~0xFE, 与 GBK 标准基本兼容。四字节部分,第一字节从 0x81~0xFE, 第二字节从 0x30~0x39, 第三和第四字节的范围和前两个字节分别相同。四字节部分覆盖了从 0x0080 开始, 除去二字节部分已经覆盖的所有 Unicode 3.1 码位。也就是说, GB18030 编码在码位空间上做到了与 Unicode 标准一一对应,这一点与 UTF-8 编码类似。现在的 PC 平台必须支持 GB18030,手机、MP3 一般只支持 GB2312。
BIG5:
BIG5 是通行于台湾、香港地区的一个繁体字编码方案。广泛应用于电脑行业,尤其是互联网中,从而成为一种事实上的行业标准。
BIG5 码是双字节编码方案,其中第一个字节的值在 OXAO-OXFE 之间,第二个字节在 OX40-OX7E 和 OXA1-OXFE 之间。
(6) UniCode:
为了统一全世界的编码规范,ISO(国际标准化组织)废除所有地区性编码方案,重新制定一个了统一的编码——Universal Multiple_OctetCoded Character Set,简称UCS,俗称“UniCode”。
ISO规定,用16位统一表示所有的字符,对于ASCII里的那些“半角”字符,UNICODE保持其原编码不变,只是将其长度由原来的8位扩展为16位,而其它文化和语言的字符则全部重新统一编码。由于半角英文符号只需要用到低8位,所以其高 8位永远是0,因此这种案在保存英文文本时会多浪费一倍的空间
文档评论(0)