- 1、本文档共25页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Unicode和多语言信息处理ppt课件
Unicode和多语言信息处理 adoal 内容 早期的本地化技术 软件国际化和多语言信息处理的需求 常见字符集、编码介绍 Unicode Technology 简介 开发支持Unicode的程序 Internet 时代的多语言信息处理 相关资源 不涉及文字消息(界面)本地化 早期的本地化技术 问题的历史起因 电子计算机源起于英美,较少考虑国际需求 早期不面向普通用户,无交互 早期的本地化努力 互相独立缺乏沟通合作 逆向工程、外挂,支持不彻底 应用软件要做个例修改,缺乏复用 早期汉化的重要成果:GB2312 标准 基于国际化的本地化 抽象出共同部分做成框架 应用程序接口 国际化核心功能 本地化数据定义接口 英文定义 俄文定义 中文定义 …… 文字处理 数据库 多媒体 …… 基于国际化的本地化-续 成果 抽象框架,功能复用,简化开发过程 可加载的本地化模块,易于扩展 宽字符机制,避开多字节编码的字节边界 缺陷 编码空间不兼容,导致“乱码” 即使使用宽字符,不同语言的文字也无法共同处理 乱码一例 GBK Byte1 : [0x81, 0xFE] Byte2 : [0x40, 0xFE] Latin-1 Single byte : [0xA0, 0xFF] 序列 0xF1,0x61 如何解释? 在GBK里是馻 在Latin-1里是?a 馻 ?a 多语言需求的解决方法 问题:字符集太小 解决:设计大字符集并预留扩充位 问题:编码空间冲突 解决:设计新的编码方式 有状态编码,使用转义序列局部兼容性,编程复杂 无状态编码,为每个编码点保留唯一编码值需要码表转换,编程简单 常见字符集和编码 ASCII American Standard Code for Information Interchange 起源于美国国会图书馆 等同于 ISO 646 包含英文大小写字母、阿拉伯数字、标点符号、控制符 7位编码 是后来各种字符集、编码的兼容性参考 常见字符集和编码-续 ISO-8859 扩充了ASCII,加入欧洲语言的字母和符号 8位编码,扩充部分在b7=1的区域,避开控制符,与ASCII兼容 分为多个扩展集,适应不同文字 ISO-8859-1 西欧 ISO-8859-5 西里尔语 ISO-8859-7 希腊语 ISO-8859-15 增加欧元符号 …… 常见字符集和编码-续 亚洲语言的字符集 中国大陆:GB系列 中国台湾:CNS、Big5 日本:JIS X 韩国:KSC 大字符集:CCCII、ANSI Z39.64、ISO 10646 亚洲语言的编码系统 ISO-2022 多七位编码 EUC 多八位编码 双字节编码:Shift JIS、GBK、Big5 Unicode类编码 其它:HZ-GB-2312、GB18030、TRON、ANSI Z39.64等 Unicode Technology Unicode是什么? Unicode provides a unique number for every character,no matter what the platform,no matter what the program,no matter what the language. 关于字符集、编码的一系列相关标准和处理技术的总和 Unicode Technology-续 Unicode的起源与发展 发起者:Xerox、Apple、IBM、Microsoft、Sun、DEC、Novell等 Unicode与ISO-10646的竞争 ISO 10646:4个8位元定长,避开控制区C0和C1,不要求b7都为0或1 Unicode:直接使用16位元,不避C0和C1 Unicode与ISO-10646的统一 ISO 10646放弃避开控制区的方式 Unicode并入ISO 10646的字面0,使用多八位元表示 Unicode版本在不断更新 增加新的字符,修正错误 Unicode Technology-续 字符索引值的结构 0ggggggg pppppppp rrrrrrrr cccccccc b31固定为0 7位群(group)索引,8位面(plane)索引,8位行(row)索引,8位格(cell)索引 每个面的0xFFFE和0xFFFF值保留 总共可收录的字数为128×256×(256×256-2)=2,147,418,112个 Unicode Technology-续 Unicode的字符集 UCS: Universal Multiple-Octet Coded Character Set BMP: Basic Multilingual Plane即Plane 0 UCS-2 BMP的字符集 相当于早期的Unicode Unicod
您可能关注的文档
- Office2007办公软件应用标准教程课件.ppt
- PCI术后的观察和处理吴元.ppt
- PE行业分析.ppt
- PFC2d建模及几种方法简介.ppt
- PHOTOSHOP图像处理.ppt
- PLC刷新扫描基本工作原理 经典.ppt
- PLC控制系统设计.ppt
- Photoshop CS基础教程.ppt
- PDCA管理循环培训免费114页.ppt
- PLC控制系统设计与应用.ppt
- 数学实验说课课件.pptx
- 社区网点选址中的成本效益分析.docx
- 学生实验课安全操作规程说明.docx
- 2025年云南曲靖市麒麟区事业单位委托遴选10人(含遴选计划)笔试备考题库及答案详解一套.docx
- 2025至2030塑料四合一文件架行业市场深度研究及发展前景投资可行性分析报告.docx
- 2025年云南曲靖市麒麟区事业单位委托遴选10人(含遴选计划)笔试备考题库及完整答案详解1套.docx
- 2025年云南曲靖市麒麟区事业单位委托遴选10人(含遴选计划)笔试备考题库及参考答案详解一套.docx
- 校企合作模式在产业学院中的应用与创新.docx
- 2025年云南曲靖市麒麟区事业单位委托遴选10人(含遴选计划)笔试备考题库参考答案详解.docx
- 2025年云南曲靖市麒麟区事业单位委托遴选10人(含遴选计划)笔试备考题库及参考答案详解.docx
最近下载
- 项目一集控运行职业岗位认知课件.pptx VIP
- Nordic 系列:nRF52840 (基于 Cortex-M4)_(25).nRF52840的硬件测试.docx VIP
- Nordic 系列:nRF52840 (基于 Cortex-M4)_(16).nRF52840的硬件设计指南.docx VIP
- 医疗器械说明书:迈瑞麻醉机WATO+EX-55,65_使用说明书V_1.1中文.pdf
- GMC96B钢轨打磨列车手册.pdf VIP
- 南京三合宅课件.ppt VIP
- 猩红热护理查房.pptx VIP
- 中国肺血栓栓塞症诊治、预防和管理指南(2025版).pptx
- 2025年高考数学全国新课标Ⅰ卷试卷评析及备考策略(课件).pptx VIP
- 医疗器械 质量手册 ISO 13485 QRS 820 (通过FDA、NMPA、CE的审批 版.pdf VIP
文档评论(0)