中文化专题..docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
4 汉字编码 4.1)基础知识 4.1.1) GB2312 范围:0xA1A1--0xFEFE 汉字范围:0xB0A1--0xF7FE 编码方式: GB2312规 定对任意一个图形字符都采用两个字节表示,每个字节均采用七位编码表示,习惯上称第一个字节为高字节,第二个字节为低字节。与ASCII有重叠,通行方法是将GB码两个字节的最高位置1以示区别。GB2312码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集--基本集》,由国家标准总局发布,1981年5月1日实施,通行于大陆。新加坡等地也使用此编码。0xa1-0xfe,低位也是0xa1-0xfe;汉字从0xb0a1开始,结束于0xf7fe16-87区为汉字区0xb0-0xf7)。故而GB2312最多能表示6763个汉字。GB2312的原文还是区位码,从区位码到内码,需要在高字节和低字节上分别加上A0。 在DBCS中,GB内码的存储格式始终是big endian,即高位在前。 GB2312的两个字节的最高位都是1。但符合这个条件的码位只有128*128=16384个。所以GBK和GB18030的低字节最高位都可能不是1。不过这不影响DBCS字符流的解析:在读取DBCS字符流时,只要遇到高位为1的字节,就可以将下两个字节作为一个双字节编码,而不用管低字节的高位是什么。 0×8140 - 0xFEFE 汉字范围: GBK/2:OXBOA1-F7FE, 收录 GB2312 汉字 6763 个,按原序排列; GBK/3:OX8140-AOFE,收录 CJK 汉字 6080 个; GBK/4:OXAA40-FEAO,收录 CJK 汉字和增补的汉字 8160 个。 编码方式: GBK 亦采用双字节表示,总体编码范围为 8140-FEFE 之间,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 XX7F 一条线。 字符集: GBK 共收入21886个汉字和图形符号,包括: GB2312 中的全部汉字、非汉字符号; BIG5 中的全部汉字; 与 ISO-10646 相应的国家标准 GB13000 中的其它 CJK 汉字; 以上合计 20902 个汉字。 其它汉字、部首、符号,共计 984 个。 背景知识: GBK 向下与 GB2312 完全兼容,向上支持 ISO-10646 国际标准,GBK是GB2312-80的扩展,是向上兼容的。它包含了20902个汉字,其编码范围是0x8140-0xfefe,剔除高位0x80Unicode2.0。 备注: 微软公司自Windows 95 简体中文版开始支持 GBK 代码,标准叫法是 Windows codepage 936,也叫做 GBK(国家标准),它也是 8-bit 的变长编码。据我所知 GBK从来没成为正式的国家标准,只不过因为Windows 的普及,它已经成为事实上的标准了。但目前的多数搜索引擎都不能很好地支持 GBK 汉字。 4.1.3) TW-BIG5:大五码 范围:0xA140 - 0xF9FE, 0xA1A1 - 0xF9FE 编码方式: 每个字由两个字节组 成,其第一字节编码范围为0xA1~0xF9,第二字节编码范围为0×40~0×7E与0xA1~0xFE总计收入13868个字 (包括5401个常用字、7652 个次常用字、7个扩充字、以及808个各式符号)国际标准组织于1984年4月成立ISO/IECJTC1/SC2/WG2工作组,针对各国文字、符号进行统一性编码。1991年美国跨国公司成立UnicodeConsortium,并于1991年10月与WG2达成协议,采用同一编码字集。目前Unicode是采用16位编码体系,其字符集内容与ISO10646的BMP(BasicMultilingualPlane)相同。Unicode 标准始终使用十六进制数字,而且在书写时在前面加上前缀“U+”,例如字母“A”的编码为 004116 。所以“A”的编码书写为“U+0041”。 Unicode 编码表 0000-0FFF 8000-8FFF 10000-10FFF 20000-20FFF 28000-28FFF1000-1FFF 9000-9FFF ? 21000-21FFF 29000-29FFF2000-2FFF A000-AFFF ? 22000-22FFF 2A000-2AFFF3000-3FFF B000-BFFF ? 23000-23FFF4000-4FFF C000-CFFF 1D000-1DFFF 24000-24FFF 2F000-2FFFF5000-5FFF D000-DFFF ? 25000-25FFF6000-6FFF E000-EFFF ? 26000-26FFF7000-7

文档评论(0)

yxnm + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档