中文化专题.docVIP

  • 2
  • 0
  • 约 15页
  • 2016-06-08 发布于重庆
  • 举报
中文化专题

4 汉字编码 4.1)基础知识 4.1.1) GB2312 范围:0xA1A1--0xFEFE 汉字范围:0xB0A1--0xF7FE 编码方式: GB2312规 定对任意一个图形字符都采用两个字节表示,每个字节均采用七位编码表示,习惯上称第一个字节为高字节,第二个字节为低字节。与ASCII有重叠,通行方法是将GB码两个字节的最高位置1以示区别。GB2312码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集--基本集》,由国家标准总局发布,1981年5月1日实施,通行于大陆。新加坡等地也使用此编码。0xa1-0xfe,低位也是0xa1-0xfe;汉字从0xb0a1开始,结束于0xf7fe16-87区为汉字区0xb0-0xf7)。故而GB2312最多能表示6763个汉字。GB2312的原文还是区位码,从区位码到内码,需要在高字节和低字节上分别加上A0。 在DBCS中,GB内码的存储格式始终是big endian,即高位在前。 GB2312的两个字节的最高位都是1。但符合这个条件的码位只有128*128=16384个。所以GBK和GB18030的低字节最高位都可能不是1。不过这不影响DBCS字符流的解析:在读取DBCS字符流时,只要遇到高位为1的字节,就可以将下两个字节作为一个双字节编码,而不用管低字节的高位是什么。 0×8140 - 0xFEFE 汉字范围: G

文档评论(0)

1亿VIP精品文档

相关文档