RFC2279.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
RFC2279

RFC2279 组织:中国互动出版网(/) RFC文档中文翻译计划(/compters/emook/aboutemook.htm) E-mail:ouyang@ 译者:陈建华(chjh21 chjh@263.net) 译文发布时间:2001-10-15 版权:本中文翻译文档版权归中国互动出版网所有。可以用于非商业用途自由转载,但必须 保留本文档的翻译及版权信息。 Network Working Group F. Yergeau Request for Comments: 2279 Alis Technologies Obsoletes: 2044 January 1998 Category: Standards Track UTF-8,ISO 10646的一种转换格式 (RFC 2279——UTF-8, a transformation format of ISO 10646) 本备忘录的状态 本文档讲述了一种Internet社区的Internet标准跟踪协议,它需要进一步进行讨论和建 议以得到改进。请参考最新版的“Internet正式协议标准” (STD1)来获得本协议的标准化程 度和状态。本备忘录的发布不受任何限制。 版权声明 版权所属Internet社区(1998),保留全部权力。 摘要 ISO/IEC 10646-1定义了一种多8比特字节字符集,称作通用字符集(UCS),它包含了世 界上大多数可书写的字符系统。然而,多8比特字节字符与许多当前的应用和协议不一致, 从而导致了一些被称为UCS转换格式(UTF)的发展。每一种UTF有不同的特征。本备忘录中 的UTF-8保留了全部US-ASCII 范围字符,提供了对文件系统、依赖于US-ASCII值的分析器 和其他软件的兼容性,并且对其他字符值透明。本备忘录用来更新和替换RFC 2044,特别对 相关标准的版本问题进行了说明。 目录 1、介绍 2 2、UTF-8定义 3 3、标准版本 4 4、例子 4 5、MIME注册 4 6、安全考虑 5 鸣谢 5 参考 5 作者地址 6 版权说明 7 1、介绍 ISO/IEC 10646-1 [ISO-10646]定义了一种多8比特字节字符集,称作通用字符集(UCS), 它包含了世界上大多数可书写的字符系统。已定义了两种多8比特字节编码,对每一个字符 采用四个8比特字节编码的称为UCS-4,对每一个字符采用两个8比特字节编码的称为 UCS-2。它们仅能够对UCS的前64K字符进行编址,超出此范围的其它部分当前还没有分配 编址。 值得注意的是统一的字符编码标准[UNICODE]定义了同样的字符集,而且它进一步定义 了对实现器非常重要的额外字符属性和其他应用细节,但是没有定义UCS-4编码。直到现在, Unicode的变化和ISO/IEC 10646修正彼此穿插,因此他们的字符指令和编码分配保持同步。 相关的标准委员会同意维持这种非常有用的同步。 然而,UCS-2和UCS-4编码很难在许多当前的应用和协议中使用,这些应用和协议假定 字符为一个8或7比特的字节。即使新的可以处理16比特字符的系统,却不能处理UCS-4 数据。这种情况导致一种称为UCS转换格式(UTF)的发展,它每一种有不同的特征。 UTF-1仅仅是历史上的重要,它已经从ISO/IEC 1064中删除。UCS-7拥有仅采用8比特 字节就可对全部BMP指令进行编码的性质,它的最高比特位为零(其他7比特位为US-ASCII 值, [US-ASCII]),被认为是邮件安全的编码([RFC2152])。本备忘录中的UTF-8对象,使用了 8比特字节的所有位,保持全部US-ASCII取值范围的性质:US-ASCII字符用一个8比特字 节编码,采用通常的US-ASCII值,因此,在此值下的任何一个8比特位字节仅仅代表一个 US-ASCII字符,而不会为其他字符。 UTF-16计划用于从保留的范围中,转换UCS-4指令的一个子集为UCS-2值对。UTF-16 影响UTF-8,因为保留范围的UCS-2值必须当作UTF-8变换进行特别处理。 UTF-8采用变化的8比特字节数对UCS-2或UCS-4字符编码。8比特字节数量,以及每 一字节的值依赖于ISO/IEC 10646中对此字符指定的整型值。这种转换格式有下列特性(所 有的值为16进制): -从0000 0000 到 0000 007F(US-ASCII 指令)字符值对应于8比特字节的00到7F(7 比

文档评论(0)

me54545 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档