Chapter4-汉字编码和输入输出.pdf

  1. 1、本文档共69页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Chapter4-汉字编码和输入输出

汉字编码和输入输出 刘秉权 哈工大智能技术与自然语言处理研究室 2006年11月 汉字编码 ? 现状 ? 主要编码标准和规范 ? 国标码 ? Unicode ? Windows对Unicode的支持 ? GB18030 汉字编码和输入输出 2 汉字编码现状及其根源 ? 多种编码方案共存,不利于交流和共享 ? 新旧标准同台使用,需相互转换 ? 统一标准正在形成 ? 中、日、韩、新等多国同时使用汉字 ? 简繁体汉字并存 ? 地区、国家间的文化、政治差异增加了汉字统 一编码的难度 汉字编码和输入输出 3 主要汉字(文字)编码标准与规范 ? ASCII(英文) ? GB2312 ? GBK ? GB13000 ? GB18030 ? BIG5 ? Shift_JIS ? ISO/IEC 10646 ? Unicode 汉字编码和输入输出 4 汉字的几种通行名称 ? Hanzi, Hantsu, 汉字 ? Ideographic character,表意字符,中文 字符 ? Kanji-日文中的叫法 ? Hanja-朝鲜文中的叫法 ? CJK-中日韩通用字符集 ? Unihan 汉字编码和输入输出 5 ASCII码 ? 美国信息交换标准编码(“美标”) ? 用从0到127的128个数字来代表信息的规 范编码 ? 包括33个控制码,一个空格码,和94个 形象码 ? 形象码中包括了英文大小写字母,阿拉 伯数字,标点符号等 ? 国际上大部分电脑的通用编码 汉字编码和输入输出 6 文本文件与二进制文件 ? 字符大都是用一个八位二进制数字表示,美标 只规定了128个编码,剩下的另外128个数码没 有规范,美标中的33个控制码,各厂家用法也 不尽一致 ? 文本文件(ASCII Text Files) :美标形象码或空 格码组成,通常可在不同电脑系统间直接交换 ? 二进制文件(Binary Files) :含有控制码或非美 标码的文件,通常不能在不同电脑系统间直接 交换 汉字编码和输入输出 7 国标、区位、“准国标” 、机内码 ? 国标:中华人民共和国国家标准信息交换用汉 字编码 ? 国标(GB2312-80)表(基本表)把七千余汉 字、以及标点符号、外文字母等,排成一个94 行、94列的方阵 ? 每一横行叫一个“区”,每个区有九十四个“位” ? 一个汉字在方阵中的坐标,称为该字的“区位 码” ? 例如“中”字在方阵中处于第54区第48位, 它的区位码就是5448 汉字编码和输入输出 8 区位码表 ? 区位码来源于信息交换用汉字编码字符集(基本集)国家标准 (GB2312-80),该标准收汉字6763个,第一级3755个,位于16至55 区,55区的最后5个字符没有定义;第二级3008个,位于56至87区 ? 第一级汉字按照汉语拼音字母顺序排列,同音字以笔形顺序横 (一)、直(丨)、撇(丿)、点(丶)、折(乙)为序。起笔 相同按第二笔,依次类推。 ? 第二级汉字按部首排序,本标准采用的部首与一般字典用的部首 基本相同,略有改并。部首次序及同部首字按笔划数排列,同笔 划数的字以笔形顺序横(一)、直(丨)、撇(丿)、点 (丶)、折(乙)为序。起笔相同按第二笔,依次类推。 ? 查表时先查区号,再查行、列,例如:“、”是0102,“蔼”是 1610。 汉字编码和输入输出 9 例 01 区 1 2 3 4 5 6 7 8 9 02 区 1 2 3 4 5 6 7 8 9 0 、 。

文档评论(0)

l215322 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档