Unicode字符集和多字节字符集关系[借鉴].pdfVIP

Unicode字符集和多字节字符集关系[借鉴].pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Unicode 字符集和多字节字符集关系 谈谈 Unicode 编码,简要解释 UCS 、UTF、BMP 、 BOM 等名词 http://bl /s monster/arc hive/2008/10/31/3194587.as px unicode 、 ucs-2 、ucs-4 、utf-16 、 utf-32 、utf-8 http://stallman.blogbus.c om/logshtml Unicode 是为整合全世界的所有语言文字而诞生的 。任何文字在 Unicode 中都对应一个值, 这个值称为 代 码点 (code point )。代码点的值通常写成 U+ABCD 的格式。 而 文字和代码点之间的对应关系 就是 UCS-2 (Universal Character Set coded in 2 octets ) 。 顾名思义, UCS-2 是 用两个字节来表示代码点 ,其 取值范围为 U+0000 ~ U+FFFF 。 为了能表示更多的文字,人们又提出了 UCS-4 ,即用 四个字节表示代码点 。 它的范围为 U~U+7FFFFFFF ,其中 U~ U+0000FFFF 和 UCS-2 是一样的 。 要注意, UCS-2 和 UCS-4 只规定了代码点 和文字之间的对应关系,并没有规定代码点在计算机中如何存储。 规定存储方式的称为 UTF (Unicode Transformation Format ) ,其中应用较多的就是 UTF-16 和 UTF-8 了。 不难猜到, UTF-16 是完全对应于 UCS-2 的,即把 UCS-2 规定的代码点通过 Big Endi an 或 Little Endi an 方式 直接保存下来。 UTF-16 包括三种: UTF-16 , UTF-16BE (Big Endian ), UTF-16LE (Little Endian ) 。 UTF-16BE 和 UTF-16LE 不难理解,而 UTF-16 就 需要通过在文件开头以名为 BOM (Byte Order M ark )的字符 来表明文件是 Big Endian 还是 Little Endi an 。 “ABC”这三个字符用各种方式编码后的结果如下: UTF-16BE 00 41 00 42 00 43 UTF-16LE 41 00 42 00 43 00 UTF-16(Big Endian) FE FF 00 41 00 42 00 43 UTF-16(Little Endian) FF FE 41 00 42 00 43 00 UTF-16( 不带 BOM) 00 41 00 42 00 43 Windows 平台下默认的 Unicode 编码为 Little Endian 的 UTF-16 (即 上述的 FF FE 41 00 42 00 43 00 )。 UTF-16 还能表示一部分的 UCS-4 代码点 —— U+10000 ~ U+10FFFF 。 表示算法比较复杂,简单说明如下: 1. 从代码点 U 中减去 0x10000 ,得到 U 。这样 U+ 10000 ~U+ 10FFFF 就变成了 0x00000 ~ 0x FFFFF 。 2. 用 20 位 二进制数表示 U 。 U=y yyyyyyyyyxxxxxxxxxx 3. 将前 10 位和后 10 位用 W1 和 W2 表示, W1= 110110 yyyyyyyyyy ,W2= 110111 x

文档评论(0)

肖四妹学教育 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档