汉字输入编码.pptVIP

  1. 1、本文档共41页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉字输入编码

汉字编码的概念 从广义角度看 字典/词典编码方法,用于在字典和词典中的快速定位 ,常见的方法:部首、笔画、拼音和四角号码等 从狭义角度看 汉字键盘编码,用计算机键盘上的按键为汉字编码 汉字编码的概念 计算机通信技术领域对所处理信息的字符集符号序列的排序原则和低吗赋值方式,简称“机内码”,包括存储码、处理码、传输码等 计算机键盘输入汉字的代码设计与实现,简称“外码”或“人机界面编码”,用一套字母数字代码输入汉字 四角号码编码方法 横一垂二三点捺 叉四插五方框六 七角八八九是小 点下有横变零头 举例:端 先取左上角0,其次取右上角2再取左下角1,最后取右下角 2,端=0212。 四角号码取角方法 取角方法 (1)一笔可以分角取号。例:以 左边是一笔,上取为2,下取为7。 (2)一笔的上下两段和别笔构成两种笔形的,分两角取号。例:水 左边,上取1,下取9。 (3)下角笔形偏在一角的,按实际位置取号,缺角作0。例:妒 右下角缺,取为0。 (4)凡外围是“口、门(门)”的三类字,左右两下角改取里面的笔形。例:田 =6040。 (5)一个笔形,前角已经用过,后角作0。例:王 左上角为一横,取1,右上角因为前面已经用过,所以取0。 附号 (1)四角号码字较多时,再取靠近右下角(第四角)上方一个笔形作“附号”,如果这一笔形已被右上角用过,则作0。 (2)四角和“附号”相同的字,照各字所含横笔数目,顺序排列。 取角注意项 (1)角形有两单笔或一单笔一复笔的,不论高低,一律取最左或最右的笔形。 (2)有两复笔可取的,在上角取较高的的复笔,在下取较低的复笔。 (3)当中起笔的撇,下角有他笔的,取他笔作下角,但左边起笔的撇,取撇笔作角。 汉字编码的发展 20世纪70年代 起步阶段,拼音编码、五笔字形、自然码等,效率较低 20世纪80年代中期 轰轰烈烈的“大跃进”式编码活动,但没有什么发展 20世纪90年代 萧条期 进入21世纪后 将是又一个发展期,数字编码方案将占主导 汉字编码中的几个概念(1) 字符集/字汇和词汇 字符集/字汇 多/少 词汇 多/少 特指某个编码方案编码词组的集合 码元 组成输入码的字符集合称为码元。 如拼音码的码元是“a”-“z”中的任意一个字母;纵横码的码元是“0”-“9”中的任意一个数字 。 纵横码的使用方法 由香港殷商周忠继先生发明、推广的一套以0-9十个数字进行编码的小键盘输入法,它以片语/词组作为主要输入方式。 一横二竖三点捺,叉四插五方块六,七角八八九是小,撇与左钩都是零。 单字取码 取码次序:左上角、右上角、左下角、右下角 取大不取小 有重复笔形不取 有边取边 有角高优先 词组取码 33规则:对二字词组,取每字的头3码,若不足3码,则有几码取几码,取完按数字键的9上面的“﹡” 222规则:对三字词组,取每字的头2码,若不足2码,则有几码取几码,同上。 2112规则:对四字词组,词首尾字各取头2码,中间每字各只取头1码,同上。 21111规则:对多字词组,第一字取头2码,第二至第五字各取头1码,余下若字不用取码,同上。 汉字编码中的几个概念(2) 码长 输入码的长度称为码长。如输入码“123”的码长为3 等长编码,如区位码等 不等长编码,如拼音码、纵横码等 单码和重码 一个编码可能对应多个汉字和词组,那么这些汉字或词组称为重码。一个编码对应的汉字和词组只有一个时,称该汉字和词组为单码。 汉字编码中的几个概念(3) 编码空间和编码效率 所有可能的输入码集合,称为编码空间。 编码空间的大小依赖于码元集合和码长。 如某个编码方案的码元共有K个,编码采用等长码,长度为i,则编码空间大小为:C=Ki, 如区位码的编码空间大小为:C=104,即10000个。 编码效率简单而言是指编码的字汇/词汇除以编码空间的大小。 如区位码,它的字汇大小为6763,则编码效率为6773/10000=67.73%。 汉字的墒(1)——信息量的概念 熵,在信息论里叫信息量。从控制论的角度来看,应叫不确定性。 最简单的是只有两种可能性,非此即彼,我们以这种事物的信息量为单位,叫1比特(bit)。如果可能性数目有2的n次方(N=2n),那就是n比特,即信息量等于可能性数目N的“以2为底的对数”:H=㏒2N=㏒N/㏒2。 信息量应按符号的可能性(数学上叫概率大小)来计算,它是概率的负对数。平均信息量就是它们的加权平均 H=-∑pi㏒pi(1≤i≤n)( pi表示第i个字母的概率) 文字信号的信息量H是信号个数n的以2为底的对数: H=㏒n/ ㏒2。英文有 26个字母,每个字母的信息量H=㏒26/ ㏒2=4.700。 各种语言的字母的信息量 法文 3.

文档评论(0)

118books + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档