- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉字编码-人类语言技术研究所
汉字编码 * Windows对Unicode的支持 Windows 3.1, Windows NT 4, Windows 2000, Windows XP支持Unicode.如果在这些操作系统上运行非Unicode编码程序,在处理之前,操作系统在其内部将应用程序的文本转化为Unicode编码的文本,在把信息传回应用程序之前,操作系统把Unicode编码的文本转化回所希望的代码页编码形式。 Windows 95, Windows 98, Windows Me不是基于Unicode的,它们只提供了基于Windows NT的Windows版本所提供的Unicode支持的一个子集 汉字编码 * GBK 汉字内码扩展规范,Rules/Specifications defining the extensions of internal codes for Chinese ideograms 为了推进Unicode的实施,同时也是为了向下兼容,由电子部与国家技术监督局联合颁布 在保持GB2312原貌的基础上,将其字汇扩充与ISO 10646中的CJK等量,同时也包容了台湾的工业标准Big5码汉字,此外还为用户留了1894个码位的自定义区 汉字编码 * GB18030-2000 信息技术-信息交换用汉字编码字符集-基本集的扩充,Information technology-Chinese ideograms coded character set for information interchange-Extension for the basic set GBK的替代、超集 汉字编码 * GB18030-2000 完全包含CJK(Unihan) Extension A 与GBK完全兼容(code- and character- compatible)的同时,为所有其它Unicode码点提供了空间 定义了4字节编码机制 汉字编码 * GB18030-2000码位范围分配表 2字节编码共23940个码位 4字节编码共超过150万个码位 汉字编码 * ISO 10646/Unicode的实现及其重要意义 在全球范围内建立起实时、无障碍的信息交换模式 推动了汉字典籍的数字化 为数字化图书馆的建立铺平了道路 为弘扬汉字文化提供了舞台 Single Binary技术的诞生:同一套基本程序用于多个语言环境的技术 使汉字关联活起来:正-异关联、中-日关联、繁-简关联,正-讹关联以及古今、新旧字形关联 * * * Big5采用双字节编码,编码空间在一个94*157的矩阵中。94个区每个区157个位。可以最多容纳14758个码元,收录了13494个字符(13053个汉字和441个非汉字图形字符)。 Big5中二级汉字的排列都采用按笔划数由少到多排列。Big5的设计者实际上是从JIS C 626-1978抄了很多汉字。因为很多汉字既用于中文,又用于日文和韩文,但这3个国家的汉字字形实际上是有一些不同的。Big5中的许多字形与其说是中国汉字,倒不如说更像日本汉字。 * 举例来说,在使用Bigendian顺序的计算机中,要存储一个十六进制数4F52所需要的字节将会以4F52的形式存储(比如4F存放在内存的1000位置,而52将会被存储在1001位置)。而在使用Little-endian顺序的系统中,存储的形式将会是524F(52在地址1000处,4F在地址1001处)。IBM的370种大型机、大多数基于RISC的计算机以及Motorola的微处理器使用的是Bigendian顺序,TCP/IP协议也是。而Intel的处理器和DEC公司的一些程序则使用的Little-endian方式。 汉字编码 * 汉字编码 哈工大 张宇教授 汉字编码 * 汉字编码现状及其根源 多种编码方案共存,不利于交流和共享 新旧标准同台使用,需相互转换 统一标准正在形成 中、日、韩、新等多国同时使用汉字 简繁体汉字并存 地区、国家间的文化、政治差异增加了汉字统一编码的难度 汉字编码 * 主要汉字(文字)编码标准与规范 ASCII(英文) GB2312 GBK GB13000 GB18030 BIG5 Shift_JIS ISO/IEC 10646 Unicode 汉字编码 * 汉字的几种通行名称 Hanzi,Hantsu,汉字 Ideographic character,表意字符,中文字符 Kanji-日文中的叫法 Hanja-朝鲜文中的叫法 CJK-中日韩通用字符集 Unihan 汉字编码 * ASCII码 美国信息交换标准编码(“美标”) 用从0到127的128个数字来代表信息的规范编码 包括33个控制码,一个空格码,和94个形象码 形象码中包括了英文大小写字母,阿拉伯数字,标点
文档评论(0)