汉字编码问题GB23180介绍GB2312码是中华人民共和国国家.docVIP

下载本文档

37
0
约1.08万字
发布于天津
举报
版权申诉
文档已下架，其它文档更精彩

汉字编码问题GB23180介绍GB2312码是中华人民共和国国家.doc

1、本文档被系统程序自动判定探测到侵权嫌疑，本站暂时做下架处理。
2、如果您确认为侵权，可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理，应急电话：400-050-0827。
3、此文档由网友上传，因疑似侵权的原因，本站不提供该文档下载，只提供部分内容试读。如果您是出版社/作者，看到后可认领文档，您也可以联系本站进行批量认领。

汉字编码问题GB23180介绍GB2312码是中华人民共和国国家

汉字编码问题一、GB2312-80介绍GB2312码是中华人民共和国国家汉字信息交换用编码，全称《信息交换用汉字编码字符集--基本集》，由国家标准总局发布，1981年5月1日实施，通行于大陆。新加坡等地也使用此编码。GB2312收录简化汉字及符号、字母、日文假名等共7445个图形字符，其中汉字占6763个。GB2312规定对任意一个图形字符都采用两个字节表示，每个字节均采用七位编码表示，习惯上称第一个字节为高字节，第二个字节为低字节。GB2312-80包含了大部分常用的一、二级汉字，和90xa1－0xfe，低位也是0xa1-0xfe；汉字从0xb0a1开始，结束于0xf7feGB2312将代码表分为94个区，对应第一字节0xa1-0xfe）；每个区94个位0xa1-0xfe），对应第二字节，两个字节的值分别为区号值和位号值加32（2OH）因此也称为区位码。01-09区为符号、数字区，16-87区为汉字区0xb0-0xf7），10-15区、88-94区是有待进一步标准化的空白区。GB2312将收录的汉字分成两级：第一级是常用汉字计3755个，置于16-55区，按汉语拼音字母/笔形顺序排列；第二级汉字是次常用汉字计3008个，置于56-87区，按部首/笔画顺序排列。故而GB2312最多能表示6763个汉字。GB2312的编码范围为2121H-777EH，与ASCII有重叠，通行方法是将GB码两个字节的最高位置1以示区别。图1:GB2312编码图 ASCII区中的虚线区域即为原GB2312编码区域，右下角实线区域为平移后的GB2312编码区域。GB2312-80的扩展 GBK是GB2312-80的扩展，是向上兼容的。它包含了20902个汉字，其编码范围是0x8140-0xfefe，剔除高位0x80Unicode2.0。 GB18030-2000(GBK2K)在GBK的基础上进一步扩展了汉字，增加了藏、蒙等少数民族的字形。GBK2KGBK兼容；四字节部分是扩充的字形、字位，其编码范围是首字节0x81-0xfe、二字节0x30-0x39、三字节0x81-0xfe、四字节0x30-0x39。Unicode3.0标准的所有字形。GBK2K的支持，这是现阶段和将来汉化的工作内容。国际标准组织于1984年4月成立ISO/IECJTC1/SC2/WG2工作组，针对各国文字、符号进行统一性编码。1991年美国跨国公司成立UnicodeConsortium，并于1991年10月与WG2达成协议，采用同一编码字集。目前Unicode是采用16位编码体系，其字符集内容与ISO10646的BMP（BasicMultilingualPlane）相同。Unicode于1992年6月通过DIS（DrafInternationalStandard），目前版本V2.0于1996公布，内容包含符号6811个，汉字20902个，韩文拼音11172个，造字区6400个，保留20249个，共计65534个。随着国际互联网的迅速发展，要求进行数据交换的需求越来越大，不同的编码体系越来越成为信息交换的障碍，而且多种语言共存的文档不断增多，单靠代码页已很难解决这些问题，于是UNICODE应运而生。UNICODE有双重含义，首先UNICODE是对国际标准ISO/IEC10646编码的一种称谓（ISO/IEC10646是一个国际标准，亦称大字符集，它是ISO于1993年颁布的一项重要国际标准，其宗旨是全球所有文种统一编码），另外它又是由美国的HP、Microsoft、IBM、Apple等大企业组成的联盟集团的名称，成立该集团的宗旨就是要推进多文种的统一编码。UNICODE同现在流行的代码页最显著不同点在于：UNICODE是两字节的全编码，对于ASCII字符它也使用两字节表示。代码页是通过高字节的取值范围来确定是ASCII字符，还是汉字的高字节。如果发生数据损坏，某处内容破坏，则会引起其后汉字的混乱。UNICODE则一律使用两个字节表示一个字符，最明显的好处是它简化了汉字的处理过程。UNICODE使用平面来描述编码空间，每个平面分为256行，256列，相对于两字节编码的高低两个字节。UNICODE的第一个平面，称为BasicMultilingualPlane（基本多文种平面），简称BMP，由于BMP仅用两个字节表示，所以倍受青睐。图2:BMP的最新概貌图其中A_ZONE为拼音文字编码区，拉丁文、阿拉伯文、日文的平假名及片假名等都在此区编码。CJKExtensionA和CJK为汉字区域共计27487个汉字。Y1即彝文，位于O-ZONE保留待将来使用。Hangul即韩文。EUDC为用户私有区，用户可以根据需要自己定义此区的编码。R-ZONE为限制使用区，一些兼容字符、特殊字符均放在此

您可能关注的文档

知传链电子书

文档评论（0）

sunshaoying + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

汉字编码问题GB23180介绍GB2312码是中华人民共和国国家.docVIP