- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
UNICODE编程实现软件的国际化.pdf
信息技术与信息化
UNICODE编程实现软件的国际化
高 波 肖 红
GAO Bo XIA0 Hong
doi:10.3969~.issn.1672-9528.2014.04.71
对于中东等非英语国家的地区,用户经常要编 Windows里的MBCS包含两种字符类型,单字节字符
写双语或多语操作界面。并且从WindowsNT操作系 SBCS(single—bytecharactersset)和双字节字符DBCS
统后,即使输入 的MBCS字符,操作系统也要转换 (double—bytecharactersset)。由于Windows里使用的
为UNICODE字符,并且有必要输 出时还要经过一 多字节字符绝大部分是两个字节长 ,所 以MBCS常被
次UNICODE到MBCS字符集的转换,虽然系统已经 用DBCS代替。
做 了极大的优化,但还是有速度损失的。鉴于此, 在 DBCS编码模式中,一些特定的值被保留用
UNICODE编程似乎势在必行。 来表明它们是双字节字符的一部分。例如,中文在
GB2312编码 中,一个大于Ox7f的特定范围内的值表
1 UNIC0DE概述
示这是一个双字节字符 ,紧跟着的下一个子节是这个
UNICODE是 目前用来解决ASCII码 256个字符限 字符的一部分。第一个值被称作 ”leadingbytes”。跟随
制问题的一种比较流行的解决方案。ASCII字符集只有 在一个 leadingbyte子节后面的字节被称作 ”trailbyte”。
256个字符,用0—255之间的数字来表示。包括大小写 在 DBCS中,trailbyte可 以是任意非 0值。例如,在
字母、数字以及少数特殊字符;如标点符号、货币符 GB2312编码集中, “论”的 “leadingbytes”为 O“xCB”,
号等。对于大多数拉丁语言来说,这些字符已经够用。 “trailbyte”为 O“xDB”。同SBCS一样,DBCS字符串
但是,许多亚洲和东方语言所用的字符远远不止 256 的结束标志也是一个单字节表示的0。
个字符,有些甚至超过万个。为了突破ASCII码字符 第三种编码模式是Unicode。Unicode是一种所有的
数的限制,试图用一种简单的方法来针对超过256个 字符都使用两个字节编码的编码模式。Unicode字符有
字符的语言编写计算机程序,于是UNICODE应运而生。 时也被称作宽字符,因为它比单子节字符宽 (使用了更多
的存储空间)。“论”的UNICODE编码为Ox8bha。注意,
2 字符编码 Unicode不能被看作MBCS。MBCS的独特之处在于它的
第一种编码类型是单子节字符集SBCS(single—byte 字符使用不同长度的字节编码。Unicode字符串使用两个
characterset)。在这种编码模式下,所有的字符都只 字节表示的0作为它的结束标志。
用一个字节表示。ASCII是 SBCS。一个字节表示的0
3 UNICODE编程的实现
用来标志SBCS字符串的结束符。
第二种编码模式是多字节字符集MBCS(multi— 本节结合制作英文 /阿拉伯文双语界面来讨论利
bytecharacterset)。一个MBCS编码包含一些一个字节 用UNICODE编程的具体实现过程。
长的字符,而另一些字符大于一个字节的长度。用在 3.1 字符串的定义
对于MBCS编程,定义一个字符串的常用格式:
水
文档评论(0)