- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
RFC2279
RFC2279
组织:中国互动出版网(/)
RFC文档中文翻译计划(/compters/emook/aboutemook.htm)
E-mail:ouyang@
译者:陈建华(chjh21 chjh@263.net)
译文发布时间:2001-10-15
版权:本中文翻译文档版权归中国互动出版网所有。可以用于非商业用途自由转载,但必须
保留本文档的翻译及版权信息。
Network Working Group F. Yergeau
Request for Comments: 2279 Alis Technologies
Obsoletes: 2044 January 1998
Category: Standards Track
UTF-8,ISO 10646的一种转换格式
(RFC 2279——UTF-8, a transformation format of ISO 10646)
本备忘录的状态
本文档讲述了一种Internet社区的Internet标准跟踪协议,它需要进一步进行讨论和建
议以得到改进。请参考最新版的“Internet正式协议标准” (STD1)来获得本协议的标准化程
度和状态。本备忘录的发布不受任何限制。
版权声明
版权所属Internet社区(1998),保留全部权力。
摘要
ISO/IEC 10646-1定义了一种多8比特字节字符集,称作通用字符集(UCS),它包含了世
界上大多数可书写的字符系统。然而,多8比特字节字符与许多当前的应用和协议不一致,
从而导致了一些被称为UCS转换格式(UTF)的发展。每一种UTF有不同的特征。本备忘录中
的UTF-8保留了全部US-ASCII 范围字符,提供了对文件系统、依赖于US-ASCII值的分析器
和其他软件的兼容性,并且对其他字符值透明。本备忘录用来更新和替换RFC 2044,特别对
相关标准的版本问题进行了说明。
目录
1、介绍 2
2、UTF-8定义 3
3、标准版本 4
4、例子 4
5、MIME注册 4
6、安全考虑 5
鸣谢 5
参考 5
作者地址 6
版权说明 7
1、介绍
ISO/IEC 10646-1 [ISO-10646]定义了一种多8比特字节字符集,称作通用字符集(UCS),
它包含了世界上大多数可书写的字符系统。已定义了两种多8比特字节编码,对每一个字符
采用四个8比特字节编码的称为UCS-4,对每一个字符采用两个8比特字节编码的称为
UCS-2。它们仅能够对UCS的前64K字符进行编址,超出此范围的其它部分当前还没有分配
编址。
值得注意的是统一的字符编码标准[UNICODE]定义了同样的字符集,而且它进一步定义
了对实现器非常重要的额外字符属性和其他应用细节,但是没有定义UCS-4编码。直到现在,
Unicode的变化和ISO/IEC 10646修正彼此穿插,因此他们的字符指令和编码分配保持同步。
相关的标准委员会同意维持这种非常有用的同步。
然而,UCS-2和UCS-4编码很难在许多当前的应用和协议中使用,这些应用和协议假定
字符为一个8或7比特的字节。即使新的可以处理16比特字符的系统,却不能处理UCS-4
数据。这种情况导致一种称为UCS转换格式(UTF)的发展,它每一种有不同的特征。
UTF-1仅仅是历史上的重要,它已经从ISO/IEC 1064中删除。UCS-7拥有仅采用8比特
字节就可对全部BMP指令进行编码的性质,它的最高比特位为零(其他7比特位为US-ASCII
值, [US-ASCII]),被认为是邮件安全的编码([RFC2152])。本备忘录中的UTF-8对象,使用了
8比特字节的所有位,保持全部US-ASCII取值范围的性质:US-ASCII字符用一个8比特字
节编码,采用通常的US-ASCII值,因此,在此值下的任何一个8比特位字节仅仅代表一个
US-ASCII字符,而不会为其他字符。
UTF-16计划用于从保留的范围中,转换UCS-4指令的一个子集为UCS-2值对。UTF-16
影响UTF-8,因为保留范围的UCS-2值必须当作UTF-8变换进行特别处理。
UTF-8采用变化的8比特字节数对UCS-2或UCS-4字符编码。8比特字节数量,以及每
一字节的值依赖于ISO/IEC 10646中对此字符指定的整型值。这种转换格式有下列特性(所
有的值为16进制):
-从0000 0000 到 0000 007F(US-ASCII 指令)字符值对应于8比特字节的00到7F(7
比
您可能关注的文档
最近下载
- 2003年房地产估师考试《房地产开发经营与管理》真题及答案-中大网校.doc VIP
- 职业生涯报告六篇.pdf VIP
- 弧度制、扇形的弧长与面积.PDF VIP
- 2024-2030年中国纺织行业十四五发展分析及投资前景与战略规划研究报告.docx VIP
- 2025云南省交通投资建设集团有限公司下属云南省交通科学研究院有限公司管理人员招聘16人笔试参考题库附答案解析.docx VIP
- 《电子商务安全技术》考试复习题库(含答案).docx VIP
- 人工智能数学基础-全套PPT课件.pptx
- 山东名校2025届高三12月校际联合检测 生物试卷(含答案解析).docx
- 职业计划生涯范文5篇.docx VIP
- 成功必备的八大心态.ppt VIP
原创力文档


文档评论(0)