拼音输入法数学原理.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
拼音输入法的数学原理 亚洲语言及所有非罗马拼音式的语言的输入原本是个问题,但是近20 年来,以中国为 代表的亚洲国家在输入法方面有了长足的进步,现在已经不是人们使用计算机的障碍了。以 中文输入为例,过去的25 年里,输入法基本上经历了以自然音节编码输入,到偏旁笔画拆 字输入,再回归自然音节输入的过程。和任何事物的发展一样,这个螺旋式的回归不是简单 的重复,而是一种升华。 输入法输入汉字的快慢取决于对汉字编码的平均长度,通俗地讲,就是击键次数乘以寻找 这个键所需要的时间. 单纯地减少编码长度未必提高输入速度,因为寻找一个键的时间可能 变得较长. 提高输入法的效率在于同时优化这两点,而其中有着坚实的数学基础. 我们可以 通过数学的方法说明平均输入一个汉字需要多少次击键,如何编码能够使得输入法接近理论 上的最小值,同时寻找一个键的时间又不至于过长. 1 输入法与编码 将一个方块形状的汉字输入到计算机中,本质上是一个将我们人为约定的信息记录编码 ——汉字,转换成计算机约定的编码(国标码或者UTF -8 码)的信息转换过程。键盘是一 种主要的输入工具,当然还可以有其他输入工具,比如手写板和麦克风。一般来讲,键盘上 可使用的只有26 个字母加上 10 个数字键作为对汉字编码的基本键,外加一些控制键。 因 此,最直接的编码方式就是让这26 个字母对应拼音,当然,为了解决汉字的一音多字问题, 得用10 个数字键来消除歧义性。 这里面,对汉字的编码分为两部分:对拼音的编码(参照汉语拼音标准即可)和消除歧 义性的编码。对一个汉字编码的长度取决于这两方面,只有当这两个编码都缩短时,汉字的 输入才能够变快。早期的输入法常常只注重第一部分而忽视第二部分。 虽然全拼输入法和汉语拼音标准一致,容易学习,但是,拼音输入法早期甚至是双拼早 于全拼,原因是为了缩短对拼音的编码。在双拼输入法中,每个声母和韵母只用一个键即可 表示。中国最早可以输入汉字的微机中华学习机和长城0520,分别对应苹果系列和IBM 系 列,采用的都是双拼的输入方案。台湾地区用的注音字母也等效于双拼。各家的双拼对应键 盘字母的方式还略有不同,以微软公司为例,对应如下: 这些输入方法看似节省了一点编码长度,但是输入一点也不快,因此它们只优化了局部,而 伤害了整体。首先,双拼输入法增加了编码上的歧义性:键盘的字母只有26 个,可是汉语 的声母和韵母总和却有50 多个。从上图中可以看到,很多韵母不得不共享一个字母键。增 加歧义性的结果就是从更多汉字侯选中找到自己想输入的字,也就是增加消除歧义性编码的 长度:不断地重复“翻页,扫描后续字”的过程。第二,它增加了每一次击键的时间。因此 双拼的方法不自然,比全拼的方法多出来一道将读音拆成声母和韵母编码的过程。认知科学 的研究表明,在脱稿输入时,拆字的过程会使得思维变慢。第三,双拼对读音的容错性不好, 因此前鼻音an、en、in 和对应的后鼻音ang、eng 、ing 卷舌音ch、sh、zh 和相应的平舌音 (非卷舌音)编码完全没有相似性。全中国除了北京周围的人,大部分人前鼻音和后鼻音、 卷舌音和非卷舌音多少有点分不清,经常出现输入韵母和声母后,翻了好几页,也找不到自 己想要的字的情况。原因是一开始就选错了韵母或者声母。一个好的输入法不能要求用户一 定得把每个字的音都读准,就如同一架普及型的照相机不应该要求使用者精通光圈和快门速 度的设置。 由于种种原因,早期的拼音输入法不是很成功,这就给其它输入法的迅速崛起创造了条 件。很快,各种输入法如雨后春笋般地冒了出来,总数上,有的报道说有上千种,有的报道 说有三千多种。各种输入法的专利到20 世纪90 年代初已经有上千种,以至于一些专家认为 中国软件行业之所以上不去,是因为大家都去做输入法了。所有这些输入法,除了少数对拼 音输入法的改进,大多是利用26 个字母和10 个数字对汉字库(当时一般只考虑二级国际汉 字)中6300 个左右的常见字直接编码。大家知道,即使只用26 个字母编码,三个键的组合 也可以表示263 ≈17000 个汉字,因此,所有这些编码方法都宣称自己能两三个键就输入一 个汉字,常见字两个键,非常见字三个键也足够了。其实这里面没有什么学问,很容易做到。 但是,这些复杂的编码要让人记住几乎是不可能的,因此这里面的艺术就是如何将编码和汉 字的偏旁、笔画或者读音结合,让人记住。当然,每一种编码都宣称自己比其他方法更合理, 输入更快。因为这些输入法的编码方法从信息论的角度来看都在

文档评论(0)

kehan123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档