- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
几款主流拼音输入法的比较
摘 要 输入法的研究一直以来都是计算语言学的研究重点,然而,对于市面上面的各种时兴的输入法的比较的研究却很少。本文从拼音输入数、错误纠正率、长句输入准确度几个方面,对搜狗输入法、QQ输入法、百度输入法、谷歌拼音输入法进行了研究,结果发现,各种输入法都各有千秋。
【关键词】输入法比较 搜狗输入法 QQ输入法 百度输入法 谷歌拼音输入法
1 引言
对于输入法的比较研究有很久的历史,不过前人的研究基本都是对于不同输入码的研究,如胡懋仁对于形码、音码两种输入码进行了比较(胡懋仁 1994)。王文弼、廖建桥对于当时新兴的新智慧全拼输入方法和智能五笔输入法的输入效率进行了比较,结果发现两种方法需要大量的学习时间才能掌握,其中智能五笔需要的学习时间更长,更容易被遗忘(王文弼、廖建桥 1994)。
对于拼音输入法的比较,基本从2005年以后才有数量稍多的研究。邓一博等考察了几种汉语拼音输入法,并对其进行了改进提议(邓一博等 2009)。袁哲对搜狗、紫光、微软、谷歌、拼音加加和智能ABC六种拼音输入法进行了介绍和比较,然而主要是对于市面上的拼音输入法各种功能的综述,仍然未用数据的方式进行统计比较(袁哲 2009)。
本文旨在用实验的方法对搜狗输入法、QQ输入法、百度输入法、谷歌拼音输入法进行对比。比较这四种主流拼音输入法从拼音输入数、、错误纠正率、长句输入准确度几个方面的性能。
2 实验版本
搜狗输入法6.5版,QQ拼音输入法6.5版,百度输入法2.3版,谷歌输入法2.7版。在每项之前,都将输入法记录的用户词库删除,确保实验不被其他因素影响。
2.1 拼音输入数测试
该测试主要研究输入同一个词时,四种被试输入法出现目标词的最少击键次数,从而考察每种输入法输入时的简便性。选取了7组词,每组10个词,7组中高频词1组(选取自1998年1月份《人民日报》),古语词1组,三字组词1组,常见成语1组,惯用语1组,外来词1组,方言词1组。
实验结果:
从输入每个词的按键次数来说,百度输入法的表现最优秀,其次是谷歌输入法、搜狗输入法、QQ输入法。而且百度输入法则是以较高的差距与其他几名拉开了距离。百度输入法与谷歌输入法差了19键,搜狗输入法与谷歌输入法则是差了11键,QQ输入法与搜狗输入法差距不是很大,差了9键。而第一名百度输入法较最后一名QQ输入法差了39键,也就是说百度输入法比QQ输入法快了10%。综合来说,百度输入法表现性能最优。
2.2 错误纠正率测试
本测试通过选用几种人们在语言使用和汉字输入过程中常出现的几种错误,来检测各种输入法对这些错误的纠正率。因为使用的是拼音输入法,所以使用者可能会带上自己的方言的语音偏误。同时,除了语音的偏误,还可能出现键的误击。
此次错误纠正率测试语音方面主要测试平/翘舌音混用,n/l混用,前/后鼻音混用三个方面的纠正率。而击键错误则主要测试键盘上前后位置键混用的纠正率,因为一部分情况下前后位置的键都可以组成拼音,所有挑选的是明显错误的拼音组合。具体测试语料如下,其中,汉字部分是正确的目标词,每类错误选取了10个目标词。
测试结果:此次测试中,搜狗输入法对错误的纠正率占据首位,其次是错误纠正率相差不大的百度输入法和谷歌输入法,最后是错误纠正率较大的QQ输入法。在被试的50个词中,搜狗输入法的纠正率达到76%,百度输入法和谷歌输入法的纠正率分别为64%和62%,QQ输入法则为50%,只能纠正一半。
2.3 长句输入准确度测试
该测试用以检测各种输入法对于长句单纯输入拼音的识别准确率。测试是在离线状态下进行,单纯检测各输入法内在算法的表现。被试长句的字数介于10字到20字之间,均为单句,中间没有语气停顿。语料均选自1998年1月份《人民日报》。
实验结果:
从此项长句测试可以看出,各个输入法总体错误率都不高,可见各输入法即使在离线状态下长句表现也很优秀。其中最优秀的是谷歌输入法,十个被试句子中,谷歌输入法只错了1处,其余的各输入法都错了2处。其中一处是四种输入法都出错了的,也就是编号为10的句子中的地名“德班”,可能因为处于离线状态下四种输入法都没有收录该词所致。而编号为4的句子中的“十五大”一次,除了谷歌输入法外其余的输入法都输出成了“食物大“。但是,总体来说,相对于词来说,各输入法对于10到30字的词表现都比较优秀。
3 讨论
通过以上几项考察不光比较了个输入法的性能,而且还发现了各输入法都存在的一些缺陷,主要是对于错误击键的纠正率还是很低的,除了搜狗输入法外,其余各输入法对于错误击键的纠正还是基于设定好的几种固定的模式,如QQ输入法的自动纠错功能只能选择
文档评论(0)