- 1、本文档共25页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Unicode和多语言信息处理-Coremail邮件系统
Unicode和多语言信息处理 adoal 内容 早期的本地化技术 软件国际化和多语言信息处理的需求 常见字符集、编码介绍 Unicode Technology 简介 开发支持Unicode的程序 Internet 时代的多语言信息处理 相关资源 不涉及文字消息(界面)本地化 早期的本地化技术 问题的历史起因 电子计算机源起于英美,较少考虑国际需求 早期不面向普通用户,无交互 早期的本地化努力 互相独立缺乏沟通合作 逆向工程、外挂,支持不彻底 应用软件要做个例修改,缺乏复用 早期汉化的重要成果:GB2312 标准 基于国际化的本地化 抽象出共同部分做成框架 应用程序接口 国际化核心功能 本地化数据定义接口 英文定义 俄文定义 中文定义 …… 文字处理 数据库 多媒体 …… 基于国际化的本地化-续 成果 抽象框架,功能复用,简化开发过程 可加载的本地化模块,易于扩展 宽字符机制,避开多字节编码的字节边界 缺陷 编码空间不兼容,导致“乱码” 即使使用宽字符,不同语言的文字也无法共同处理 乱码一例 GBK Byte1 : [0x81, 0xFE] Byte2 : [0x40, 0xFE] Latin-1 Single byte : [0xA0, 0xFF] 序列 0xF1,0x61 如何解释? 在GBK里是馻 在Latin-1里是?a 馻 ?a 多语言需求的解决方法 问题:字符集太小 解决:设计大字符集并预留扩充位 问题:编码空间冲突 解决:设计新的编码方式 有状态编码,使用转义序列局部兼容性,编程复杂 无状态编码,为每个编码点保留唯一编码值需要码表转换,编程简单 常见字符集和编码 ASCII American Standard Code for Information Interchange 起源于美国国会图书馆 等同于 ISO 646 包含英文大小写字母、阿拉伯数字、标点符号、控制符 7位编码 是后来各种字符集、编码的兼容性参考 常见字符集和编码-续 ISO-8859 扩充了ASCII,加入欧洲语言的字母和符号 8位编码,扩充部分在b7=1的区域,避开控制符,与ASCII兼容 分为多个扩展集,适应不同文字 ISO-8859-1 西欧 ISO-8859-5 西里尔语 ISO-8859-7 希腊语 ISO-8859-15 增加欧元符号 …… 常见字符集和编码-续 亚洲语言的字符集 中国大陆:GB系列 中国台湾:CNS、Big5 日本:JIS X 韩国:KSC 大字符集:CCCII、ANSI Z39.64、ISO 10646 亚洲语言的编码系统 ISO-2022 多七位编码 EUC 多八位编码 双字节编码:Shift JIS、GBK、Big5 Unicode类编码 其它:HZ-GB-2312、GB18030、TRON、ANSI Z39.64等 Unicode Technology Unicode是什么? Unicode provides a unique number for every character,no matter what the platform,no matter what the program,no matter what the language. 关于字符集、编码的一系列相关标准和处理技术的总和 Unicode Technology-续 Unicode的起源与发展 发起者:Xerox、Apple、IBM、Microsoft、Sun、DEC、Novell等 Unicode与ISO-10646的竞争 ISO 10646:4个8位元定长,避开控制区C0和C1,不要求b7都为0或1 Unicode:直接使用16位元,不避C0和C1 Unicode与ISO-10646的统一 ISO 10646放弃避开控制区的方式 Unicode并入ISO 10646的字面0,使用多八位元表示 Unicode版本在不断更新 增加新的字符,修正错误 Unicode Technology-续 字符索引值的结构 0ggggggg pppppppp rrrrrrrr cccccccc b31固定为0 7位群(group)索引,8位面(plane)索引,8位行(row)索引,8位格(cell)索引 每个面的0xFFFE和0xFFFF值保留 总共可收录的字数为128×256×(256×256-2)=2,147,418,112个 Unicode Technology-续 Unicode的字符集 UCS: Universal Multiple-Octet Coded Character Set BMP: Basic Multilingual Plane即Plane 0 UCS-2 BMP的字符集 相当于早期的Unicode Unicod
文档评论(0)