汉字输入编码.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
统一码 该方案取5种基本笔画:“横(一)”(含“提”)、“竖(丨)”(含“竖勾”)、“撇(丿)”(包括“啄”)、“点(丶)”(含“捺”)和“折(乙)”(包括左折和右折),并且将这五种笔画赋予顺序值“1”-“5”。 数字统一码将汉字结构归纳概括为四种基本结构。它们是:上下结构,左右结构,包围结构,嵌套结构。同时规定一个汉字可以取一至六码。 字445576 各359251 右689 左右数码 利用数字来表示汉字的笔划、拼音和部件,其特征是将左右(含左中右)结构的汉字定义为“左右字”,再按书写顺序把“左右字”分为“左部”与“右部” 。如下表所示: 把“左右字”以外的汉字都定义为“整体字”。根据规则进行数字编码。 汉字编码国家标准 国家标准 说明 GB13000.1 《信息技术多八位编码字符(UCS)》 GB18030 《信息技术 信息交换用汉字编码字符集 基本集的扩充》 GB/T 18031 《信息技术 数字键盘汉字输入通用要求》 GB15834 《标点符号用法》 GB/T 19246 《信息技术 通用键盘汉字输入通用要求》,   国家语委的规范 规范 说明 GF3001 《信息处理 GB13000.1字符汉字部件规范》 GF3002 《GB13000.1字符集汉字笔顺规范》 GF3003 《信息处理用汉语拼音方案表示规范通用键盘》   与汉字编码有关的标准与规范说明 在编码字符集方面 在键位设置方面 在标点符号方面 在部件规范方面 在笔顺规范方面 汉字键盘编码和输入系统的性能指标 易学性 “学会使用汉字编码输入系统的时间应尽量短,并应符合使用汉语作为母语的使用者的思维习惯”。GB/T 18031对数字编码更进一步提出要求:“做到上手能用”。 汉字输入平均码长 重码字词键选率 GB/T 19246《通用键盘汉字输入通用要求》给出的指标 GB/T 18031(数字键盘)给出的指标 编码类型 平均码长(键/字) 汉语拼音,笔画为主的简易编码 <3.2 形码(部件码)、音形码(形音码)、双拼 <2.2 编码类型 平均码长(键/字) 逐字字段输入字 <6 词混合输入 <4 GB/T 19246《通用键盘汉字输入通用要求》给出的指标 GB/T 18031(数字键盘)给出的指标 编码类型 重码字、词键选率(%) 汉语拼音,笔画为主的简易编码 <6 形码(部件码)、音形码(形音码)、双拼 <1.5 输入方式 平均码长(键/字) 逐字字段笔画、部件码输入 <8 ?字、词混合笔画、部件码输入 <10 ?逐字字段拼音输入(10键位) <13 逐字字段拼音输入(8键位) <14 字词混合拼音输入(10键位) <12 字词混合拼音输入(8键位) <14 * 苏州大学计算机科学与技术学院 第四章 汉字编码技术 汉字编码的概念 从广义角度看 字典/词典编码方法,用于在字典和词典中的快速定位 ,常见的方法:部首、笔画、拼音和四角号码等 从狭义角度看 汉字键盘编码,用计算机键盘上的按键为汉字编码 汉字编码的发展 20世纪70年代 起步阶段,拼音编码、五笔字形、自然码等,效率较低 20世纪80年代中期 轰轰烈烈的“大跃进”式编码活动,但没有什么发展 20世纪90年代 萧条期 进入21世纪后 将是又一个发展期,数字编码方案将占主导 汉字编码中的几个概念(1) 字符集/字汇和词汇 字符集/字汇 多/少 词汇 多/少 特指某个编码方案编码词组的集合 码元 组成输入码的字符集合称为码元。 如拼音码的码元是“a”-“z”中的任意一个字母;纵横码的码元是“0”-“9”中的任意一个数字 。 汉字编码中的几个概念(2) 码长 输入码的长度称为码长。如输入码“123”的码长为3 等长编码,如区位码等 不等长编码,如拼音码、纵横码等 单码和重码 一个编码可能对应多个汉字和词组,那么这些汉字或词组称为重码。一个编码如对应的汉字和词组只有一个时,称这个汉字和词组为单码。 汉字编码中的几个概念(3) 编码空间和编码效率 所有可能的输入码集合,称为编码空间。编码空间的大小依赖于码元集合和码长。如某个编码方案的码元共有K个,编码采用等长码,长度为i,则编码空间大小为:C=Ki,如区位码的编码空间大小为:C=104,即10000个。 编码效率简单而言是指编码的字汇/词汇除以编码空间的大小。如区位码,它的字汇大小为6763,则编码效率为6773/10000=67.73%。 汉字的墒(1)——信息量的概念 熵,在信息论里叫信息量。从控制论的角度来看,应叫不确定性。 最简单的是只有两种可能性,非此即彼,我们以这种事物的信息量为单位,叫1比特(bit)。如果可能性数目有2的n次方(N=2n),那就是n比特,即信息量等于可能

文档评论(0)

blingjingya + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档