第2章-文本课件.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ISO/IEC 10646 (UCS) ISO/IEC 10646 即“通用编码字符集”(Universal Coded Character Set,简称UCS), 相应的工业标准称为“Unicode”,两者完全兼容。 设计目标: 实现所有字符在同一字符集中等长编码、同等使用的真正多文种信息处理。 1993、2000分别发布标准的第1部分(ISO/IEC 10646.1:1993和10646.1:2000),对应的中国国家标准是GB 13000.1。第2部分(ISO/IEC 10646.2)也已发布。 UCS的体系结构 在 UCS 中每一个字符用 4 个字节编码,对应着每个字符在编码空间的组号、平面号、行号和字位号。 UCS的 代 码 空 间 基本多文种平面(BMP) 辅助平面 专用平面 UCS的 00 组 UCS的 BMP 平面 BMP 平 面 的 拼 音 文 字 区 UCS的两种编码形式 (1)肆八位 正则形式,记作 UCS-4 比如: 汉字“一”的正则形式为 00 00 4E 00 (缺点:浪费存储空间,也不便于在网络上传输。) (2)双八位 也称为BMP 形式,记作 UCS-2 仅适用于基本多文种平面。如,“一”的双八位形式为4E00;控制字符ESC为001B。 (省略组号和平面号(均为 00H) ,形成了一个双字节编码的字符集,它是UCS的子集) UCS的变形显现形式之一 ——UTF-8 为了与原8-bit系统保持向下兼容,UCS还可以采用8位编码,即采用单字节表示ASCII字符,这种可变长编码称为“UTF-8”(UCS Transformation Form – 8) UTF-8(可变长形式编码), 单字节: ASCII字符(from 20 to 7E) 双字节: 2万多汉字 四字节:扩充汉字 可以保持与传统ASCII文本的兼容性。 UCS的变形显现形式之二 ——UTF-16 为了扩大字符集的容量,在UCS文本中还允许插入一些4字节的UCS-4字符. 在BMP平面中保留了2个有1024个位置的块(D800 到 DFFF),这些位置不能用来表示任何符号, 从每一块中各选一个数字所组成的这些数字对,可用来表示多达100万个UCS-4字符。 这种编码方式面向双字节,允许4字节编码,称为“UTF-16”( UCS Transformation Form – 16 ),这是一种处理效率与存储容量折中的编码方案。 Unicode的应用 Unicode给全世界各个国家和地区使用的每个字符提供了一个唯一的编码 Unicode标准已经被IBM, Microsoft, Apple, HP, Oracle, SAP, Sun, Sybase和其它许多公司所采用,最新的许多软件标准都需要Unicode,例如XML, Java, CORBA 3.0, WML等,许多操作系统、所有最新的浏览器和许多其他产品都支持Unicode。 Unicode标准的出现和采用,是近些年来全球软件技术最重要的发展趋势之一。 UCS/Unicode与汉字编码 ——GB18030-2000 与现有的绝大多数汉字操作系统、中文平台在计算机内码一级兼容,即与国家标准GB 2312信息处理交换码所对应的事实上的内码标准兼容 在字汇上支持UCS/Unicode (GB13000.1-1993)的全部中、日、韩(CJK)统一汉字字符和全部CJK统一汉字扩充A的字符。 同时收录了藏文、蒙文、维吾尔文等主要的少数民族文字,为推进少数民族的信息化奠定了坚实的基础。 该标准由信息产业部和国家质量技术监督局在2000年联合发布的,并在2001年开始执行。 GB18030-2000的编码 采用单字节、双字节和四字节三种方式对字符编码。 GB18030-2000的应用 2001年,微软公司发行的操作系统简体中文版Windows XP遵守了新颁布的国家标准GB18030-2000, 微软的办公软件简体中文版(Office XP)则捆绑了方正集团的大字库,收字达到64000个。 然而,仍有许多中文信息处理软件还没有支持GB18030-2000标准,甚至没有支持GBK规范,对于人名、地名中的昇、昈、昉、镕、珺、喆等看似生僻而实际上并不生僻的字无法处理。 小结1 GB2312-80 (GB12345-90) GB18030-2000 GBK CJK汉字字汇 兼 容 不兼容? UCS/Unicode GBK GB2312 内码区 GB18030 汉字扩展区 小结2 编码字符集(coded character set) 按某种规则编码的字符的有

文档评论(0)

liuxiaoyu99 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档