- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
谈《输入法词库别发烧》一文
《输入法词库别发烧》作者:王永民(五笔字型发明人)
原文地址:【编者注】搜狗五笔的推出让输入法领域又添了一把火,当1.1版中引入八万字的大词库时,作为五笔字型的发明人王永民教授却对汉字与词语的关系有不同见解。舍字而专注于词,那便是舍本求末,王永民先生八易其稿完成了这篇《词库发烧的病因》,委托IT168网站首发。作为汉字输入研究少有的学术文章,希望对广大用户和输入法研究者提供参考。
--
舍字而专注于词,那便是舍本求末这句话很适合86方案,但是不适合093。与其恰恰相反,093的核心思想是专注于词,兼顾单字。
--
五笔字型、数字王码发明人,中国发明协会副会长王永民教授
摘要本文是纪念五笔字型发明25周年的一篇学术论文。自五笔字型今年元月荣获国家技术发明奖以来,学习使用者以及连个招呼也不打的五笔开发商越来越多。不过问题也是越来越多,其中最突出的莫过于词库发烧!许多人误以为五笔字型的词库像个橡皮囊,可以随意撑大。错了!五笔字型发明人警示广大用户和开发商:比赛词库大导致词库发烧,不是忽悠老百姓的商业炒作,就是根本不懂汉字编码的科学常识。字词兼容输入技术的发明人呼吁:词库发烧和10年前的语音输入一样,源于同一种基因,国人再也不要只图一时之快而上当受骗了!本文指出:对于词库,唯一正确的解决方案是在以字为本的基础上,建立一个总数不过4万的通用词库+专业词库;希望有能力又有爱心者,在50个专业词库方面下功夫,以便造福汉字文化和广大用户。
--
打词可以降低码长,但86五笔不适合太大的词库,因为86的编码方案在挂接大词库的时候会造成重码率激增,如果用基于86方案的词库,会经常遇到常用词需要选重码的现象。093的词库是10万,远远超过了王永民所建议的4万词库,但是093的10万词库的重码率也不会比86的4万词库的重码率高。相反,较大的词库可以使用户在打一个词的时候更加有自信,因为流光词库093版的收词原则是只要看着像词,词库里就有。另外重码率之低让用户进行的选词操作会最大限度地减少。
--1、汉字输入的难与乱汉字输入的问题,30多年来,一直在两个字上打转转。一个是难,一个是乱。难是因为汉字太多太繁,于焉有万码奔腾;乱则是因为人们始终弄不清字和词的关系,致使词库发烧,离科学越来越远。难,对汉字来说,是没有办法的,谁让咱是中国人?骂电脑自然也不管用,于是只好骂祖宗(发明了汉字)。好在五笔字型1983年革命性地突破了汉字输入电脑速度和效率的瓶颈,用他们的洋键盘,一个螺钉也不动,每分钟便可输入100多个字,使洋大人们目瞪口呆,使国人为之一振!然而,同样是在英文标准键盘上,用五笔字型输入汉字,比起打英文打字来还是要多一道拆字的手续,并不轻松。所以我才坦然承认:五笔字型有点难。但毕竟五笔字型避免了为电脑制造几千万个专用汉字键盘,将大键盘变为小键盘,变大难为小难,将每日每时的难(输入)变为学会五笔字型的难。谁能说,这点难比起汉字走入死胡同来,中国人不是赚大发了?只须少玩点游戏,少打几次麻将,花三天功夫受点罪,便能学会五笔字型(再用5天熟练指法),学一阵子,用一辈子受益终生,咱们再也不用废除汉字,岂不是弊小而利大?当下,联合国总部和全世界各地的华文报刊,当然包括我国文字输入的大量工作,都少不了用五笔字型,我国数千万白领,将五笔字型作为工作技能和谋生手段,中国汉字获得了新生畅行于信息时代,谁能说五笔字型不是功大于过呢?然而,汉字输入软件的那个乱,就不是一下子可说清楚的了。从1978年开始,人们一直在探寻音码与形码的关系,自然也是乱。音码和形码既对立又统一,像男和女一样,你说哪一个更重要?争来争去,还是得相辅相成,双轨并行,平分秋色,相得益彰。现在,这二者早已相安无事、和谐共处、乱而后治了。当前最重要的乱,是输入软件的开发者始终弄不明白字和词的关系,搞拼音习惯了,甚至主张输入时要以词代字;或是以为五笔字型打词是个宝贝,便恣意滥用,结果导致了违背科学常识的词库发烧。打4下就能输入一条很长的词汇,是我发明的,是不是宝贝,我自然知道。问题是过犹不及,宝贝用过头了,发烧了,就乱了套,走入迷津。
--
093的配套词库有10万条,但是并不发烧,它的收词原则与091、092有所不同,就是看着像词的都收,不像词的或者由多个词组成的低频长词坚决不收。比如海峰6万词库里的精神现象学非婚生子女马克思恩格斯等词,流光词库093版都不会收。093的词库虽然多,但是绝对不收垃圾废词(酌情收录一些如好象莫明其妙迫不急待之类的高频错词)。为什么093词的重码率低?举例来说吧,如果以每个词所包含的字数来分类,词库里数量最多的就是二字词了,二字词的编码方式是取每字的前两码,如果一个二简位上的常用字过多,那么必定会造成这个编码的上的重码多。比如在常用1500字范围内,如果
文档评论(0)