搜狗输入法的词库是怎样来的.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜狗输入法的词库是怎样来的

搜狗官方:搜狗输入法的词库是怎样来的 作者:搜狗输入法小组词库开发工程师 吕杰勇 众所周知,搜狗输入法在词库方面具有鲜明的特色,其词库不仅超大全面(大概有35 万左右),而且词条质量也很高.随着搜狗输入法的不断普及,越来越多的用户体验到了搜狗输入法的超级流畅性,但是这样的流畅性是以一个优秀的词库为基础的.作为一个输入法的核心部分,搜狗的超强词库是怎样来的呢?下面和广大关心搜狗输入法的朋友们分享一下词库制作中的艰辛和快乐. 搜狗的词条来源 词汇是一切中文应用的基础,但是世界上并没有任何一个词典包含了输入法所需要的所有词汇.比如中国汉语大辞典虽然包含了很多词条,但是仍然缺乏很多比较新、比较具体的词,网络的新词又层出不穷,所以搜狗输入法必须自己想办法构造一个适合他自己的词库. 由于搜狗是一家搜索引擎公司,自然会有一批自己做文本分析的词库,它包含了常用的基本词汇和部分专业词汇,但是在数量上还是远远不能覆盖用户对词汇的需求空间.经过分析可知,这部分缺少的词中有相当一部分是人名、地名、歌曲、小说、财经、旅游、游戏、体育等.幸运的是,搜狐矩阵蕴含着许多搜狗需要的这些资源,比如地名资源可以从go2map拿到,歌曲资源可以从搜狗的音乐搜索拿到,小说资源可以从搜狐网拿到,游戏词汇可以从17173游戏网拿到……这些资源虽然是内部资源,但是当初也是编辑经过长时间大量的整理维护工作的结晶,并且这涉及到大量部门间的合作,每一个流程下来都会花许多精力. 除了搜狐内部资源的整合,我们还为某些事件、场合特别整理了大量的词表.比如在世界杯期间,我们的编辑整理了几乎所有与世界杯相关的词汇,使得球迷们可以更为流畅地交流.对于诗词,我们特别汇总了几乎所有从最早的诗经到毛泽东的所有古诗词(包括宋词),这都成为搜狗词库来源的一部分. 在融合搜狗自己的词库和各个兄弟部门提供的资源后,搜狗输入法词库有了较大的完善,但是仍然缺少很多各种各样的词,比如“挖人”、“电荒”等.这些词无法通过寻找资源的方式全部找到,所以不得不自己想办法.幸运的是,互联网网页是个大宝库,里面蕴含着几乎所有我们需要的知识,所以我们的工程师们设计了一套机器学习的算法从这些网页中训练新词,训练的结果是得到了大批的新词汇,但是也引入了大量的噪声,即垃圾词.比如在最初的搜狗输入法版本里,“谢霆锋”这个词的错法就有“谢霆峰”、“谢廷锋”等数种,这对用户的体验和输入法的智能性都造成了损害. 搜狗的词频统计 输入法离不开词频,词频直接影响着智能组词.搜狗输入法的词频统计是在一个极其大的互联网网页上统计出来的.为了得到一个最优的词频,或者得到某类风格的词频(比如口语化风格),我们不断更换语料库,从网页类型的选取、文章长度的限制、某些特殊的预处理等都做了大量的尝试.每一次尝试都需要重新统计词频,动辄需要几天时间才能完成一轮词库的制作与验证,占用的机器、人力、资源之多不是某些小手工作坊式的输入法小组能够完成的. 词库过滤系统的搭建 经过前面的资源整理,我们得到了一个非常非常大的词库(约合几百万),这个词库中的词良莠不齐,需要坚决的过滤才能满足输入法的需要.试想,从几百万个词条的集合过滤得到35万左右的词条集合,这注定是一个庞大而又精细的工作. 事实上词条出现的频率是词条质量的最重要维度,频率越高则词条是好词的概率越高,并且不同来源的词汇有着不同的可信度.为此我们搭建了一个词库过滤系统,这个系统好比是一个漏斗,可以灵活地对源头的词汇进行过滤,同时输出中间每一步的过滤过程以方便开发人员调整算法.就这样,在不断的过滤、验证、修改参数的循环中,这个系统逐渐趋于稳定,为整个词库的质量做出了重要的保证.这个系统虽然只有几千行代码,但是开发人员对它阈值等参数的调整可谓不计其数.经过这一轮的处理,词条的总体质量有了飞跃般的提升. 词库的机器整理 在1.0版本发布以后,许多用户抱怨垃圾词太多,于是我们又进入了与剩余垃圾词的战斗,以其进一步提高输入法词库的质量. 经过分析我们认为垃圾词可以根据垃圾的类型分为几大类,例如:交叉型垃圾词,比如“量将”;错别字类型垃圾词,如“张亮影”、“张亮颍”,“张亮颖”等. 对于这三种垃圾词,我们可谓使出了浑身解数.针对每一种类型的垃圾词,我们结合词性、互信息等理论进行大规模的统计操作,并对每一个阈值下过滤的词进行抽样把关,像淘沙子一样由一位工程师持续过滤了近一个月,过滤了近3万的垃圾词. 词库的人工整理 机器不是万能的,在机器的铡刀间总会存在无法自动处理的角落.为了再进一步提升词库质量,我们招聘了名校中文系的毕业生来审查我们的词库.由于编辑的辛勤劳动,不断与众多不知名的文字专家探讨垃圾词的标准,并借助技术工程师的力量,通过人工、机器两相配合的方式,又进一步过滤了数以万计的垃圾词.其

文档评论(0)

cgtk187 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档