- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ISO/IEC 10646 一个国际标准编号,国际标准化组织(ISO)1993年正式颁布 英文全称:Information technology - Universal Multiple - Octet Coded Character Set,简称UCS 中文全称:信息技术--通用多八位编码字符集,亦称大字符集 宗旨:全球所有文种统一编码 Unicode 英文Universal Code的缩略语 统一编码 是对国际标准ISO/IEC 10646编码的一种称谓 是一个企业联盟集团的名称,由美国的HP、Microsoft、IBM、Apple等几家知名的大型计算机企业所组成,成立该集团的宗旨就是要推进多文种的统一编码 就内容而言,Unicode和ISO/IEC 10646是一致的,并行的 ISO10646/Unicode ISO10646的第0群组第0字面(群和面的值都为00h)称为「基本多语种文字面」(Basic Multi-lingual Plane, BMP),其编码字元与Unicode相同。 ISO10646的BMP和Unicode的编码字符。 ISO/IEC 10646中CJK汉字组成 CJK统一编码汉字(20902) CJK扩充集A(6585) CJK扩充集B(4万--) ISO 10646/Unicode的实现及其重要意义 在全球范围内建立起实时、无障碍的信息交换模式 推动了汉字典籍的数字化 为数字化图书馆的建立铺平了道路 为弘扬汉字文化提供了舞台 Single Binary技术的诞生:同一套基本程序用于多个语言环境的技术 使汉字关联活起来:正-异关联、中-日关联、繁-简关联,正-讹关联以及古今、新旧字形关联 GBK 汉字内码扩展规范,Rules/Specifications defining the extensions of internal codes for Chinese ideograms 为了推进Unicode的实施,同时也是为了向下兼容,由电子部与国家技术监督局联合颁布 在保持GB2312原貌的基础上,将其字汇扩充与ISO 10646中的CJK等量,同时也包容了台湾的工业标准Big5码汉字,此外还为用户留了1894个码位的自定义区 2字节汉字编码 在内码上兼容GB2312-80 在字汇上兼容GB13000/ISO10646 是GB2312向GB13000过渡的中间代码 收录21886个汉字和符号 GB18030-2000 信息交换用汉字编码字符集基本集的扩充 2000-3-17发布 2001年9月作为国家标准强制实施 2000年ISO发布了ISO 10646-1:2000(Unicode 同步定义为Unicode 3.0),主要是增加了称为中日韩统一汉字Extension A的6,582个字符。 GB18030-2000编码标准就在原来的 GB2312-1980 编码标准和 GBK 编码标准的基础上进行扩充,增加了四字节(32位)部分的编码。 整合GBK的汉字后到达了27484个汉字,总编码空间超过150万个码位 GB18030标准采用单字节、双字节和四字节三种方式对字符编码 GBK的替代、超集 GB18030-2000 完全包含CJK(Unihan) Extension A 与GBK完全兼容(code- and character- compatible)的同时,为所有其它Unicode码点提供了空间 定义了4字节编码机制 GB18030-2000码位范围分配表 2字节编码共23940个码位 4字节编码共超过150万个码位 UTF Unicode transformation format UCS transformation format 从Unicode码点到唯一字节序列的映射算法,一一映射,保证无损转换 UTF-16 UTF-8 UTF-32 本 章 结 束 第五章 中文信息处理 汉字信息的表示 5.2 中文信息在计算机内的表示 在计算机内表示中文信息的最早在IBM、富士通、日立等计算机生产厂家的计算机中开始,但采用的编码形式互不兼容。 为了能使汉字能够在计算机中通行,国际标准组织(ISO)、国际电子电气工程师协会(IEEE)以及各个使用汉字的国家和地区,在计算机技术发展中,都制定了各种各样的汉字编码字符集。 ISO/IEC 2022定义了七位代码和八位代码的空间及其代码空间扩充的技术。 绝大多数计算机系统所采用的字符集,都是以ISO/IEC 2022为基础的。 一般汉字在计算机内部的表示都是通过扩充编码长度实现的。 汉字的几种通行名称 Hanzi,Hantsu,汉字 Ideographic character,表意字符,中文字符 Kanji-日文中的叫法 Hanja-
文档评论(0)