汉字编码字符集-人类语言技术研究所-苏州大学.PPT

汉字编码字符集-人类语言技术研究所-苏州大学.PPT

  1. 1、本文档共91页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉字编码字符集-人类语言技术研究所-苏州大学

7.3.2 ISO 10646和Unicode 由于 Unicode技术委员会成员的实力和影响力 Unicode方案的科学性 Unicode技术委员会对WG2持续的游说和施压 WG2改用Unicode的编码方式: 所有字符的码长均等同 进行连续编码 不再避开C0和C1区 WG2在1991年10月达成了协议 将Unicode并入ISO10646,成为ISO 10646的第0字面 7.3.4 UCS-4 ISO10646的正规形式为32位 4个八位字节,称为UCS-4 组(Group):128组(组号为00~7Fh) 面(Plane): 256面(面号为00~FFh) 行(Row):256行(行号为00~FFh) 位(Cell): 256位(位号为00~FFh) 编码的Bit31(即首字节最高位)必须为0 7.3.5 ISO 10646的编码空间 ISO10646编码空间总共为: 256×128=32768个字面 每个字面为256×256-2=65534个编码位置 合计65534×32768=2147418112个编码位置 ISO10646规定,每个字面的最后两个编码位置FFFEh和FFFFh保留不用 7.3.6 编码结构示意图 7.3.7 基本多文种字面 基本多文种字面(Basic Multi-lingual Plane, BMP) : ISO10646的第0组第0字面(组和面的值都为00h) 编码字元与Unicode相同。 UCS-2:只用BMP,每个字符只用16位编码 BMP(Unicode)编码 0000~007Fh:基本拉丁字母区 0000~001Fh为C0控制码 0020h为空格(space) 0021~007Eh为ASCII图形字符 007Fh为控制码DEL 把前8位去掉即8位ASCII码 0080~00A0h:控制码区 0080~009Fh为C1控制码 00A0h为不中断空格(no-break space) 拼音文字区 00A1~1FFFh:拼音文字区 除基本拉丁字母以外的各种拼音文字 欧洲各国语言 希腊文 斯拉夫语文 希伯来文 阿拉伯文 亚美尼亚文 马来文 等 符号区 2000~28FFh:符号区 标点符号 上下标 钱币符号 数字 箭头 数学符号 工程符号 光学辨识符号 …… 中日韩符号区 2E80~33FFh:中日韩符号区 康熙字典部首 中日韩辅助部首 注音符号 日本假名和日本的假名组合 韩文音符 中日韩的符号 标点 带圈或带括符文数字、月份、单位、年号、 月份、日期、时间等 中日韩符号区 中日韩认同表意文字区 3400~4DFFh 中日韩认同表意文字扩充A区 总计收容6,582个中日韩汉字 4E00~9FFFh 中日韩认同表意文字区 收容20,902个中韩汉字 中日韩认同表意文字区 其它区 AC00~D7FFh:韩文拼音组合字区 D800~DFFFh:S区(代理区),专门用於UTF-16 E000~F8FFh:专用字区,保留供使用者自行添加 F900~FAFFh:中日韩相容表意文字区 专用字面和辅助字面 除BMP,其余32767字面分为: 专用字面(Private Use Planes) 供用户自己定义ISO 10646中未收录的字符,共有8226个 包括00h组的0Fh、10h、E0h-FFh号34个字面,以及60h-7Fh组内的全部字面 辅助字面(Supplementary Planes) 供WG2陆续定义各国文字字符 24541个字面 00h组字面示意图 使用字面 除BMP,WG2仅使用: 00h组中的01h和02h号字面 第01h号字面:定义BMP内未收集的各国非表意文字和符号 第02h号字面:定义BMP内未收集的各国表意文字和符号,如: CJK表意文字扩充B区,共计42807个汉字 CNS11643兼容字符区,共计527个字符 Unicode明确提出,只会使用00h组前17个字面(即00h-10h号字面) 版本 ISO 10646:1993 即:Unicode 2.0、GB13000.1 收录20902个汉字 ISO 10646:2000 即:Unicode 3.0、GB13000.2 收录27484个汉字 ISO 10646:2003 即:Unicode 4.0、GB13000.3 收录70198个汉字,加符号共96243个 版本(续) ISO/IEC 10646:2003 plus Amendment 1,2,3 Unicode 5.0 71226汉字,加符号共98884 ISO/IEC 10646:2011 Unicode 6.0 75616汉字,加符号共109242 Unicode 6.2 (最新) 2012.4 75

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档