“一带一路”需过言关 网络机器翻译蓄势待发.docVIP

“一带一路”需过言关 网络机器翻译蓄势待发.doc

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
“一带一路”需过言关 网络机器翻译蓄势待发

  具有深远意义的“一带一路”战略构想涉及俄罗斯、印度、泰国等超过六十个国家,近四十亿人口,四十多种语言,将极大的促进沿线各国的深度合作和交流。   提到合作与交流,首先摆在我们面前的便是语言问题。如何跨越语言障碍,实现各国互联互通呢?全球一体化时代,单靠人力显然是不能完成这样的艰巨任务。好在科技的进步给我们提供了解决方案,以机器取代人,让机器扮演翻译这一重要角色,不仅具有很强的战略意义,在实际经济和文化生活中也举足轻重。   显然,这并不是一项轻松的工作,机器翻译需要凝聚计算机、认知科学、语言学、信息论等学科的知识,是人工智能的终极目标之一。国内外的一些行业巨擘都在这一领域发力,努力研发出具备高度可用性的机器翻译技术。百度也是这一领域的佼佼者,联合了国内顶级学术机构展开研究,中国科学院自动化研究所、浙江大学、哈尔滨工业大学、中国科学院计算技术研究所和清华大学等悉数在列。   爆发式增长的数据规模给机器翻译带来新的想象空间,百度依托得天独厚的大数据优势,取得了机器翻译核心技术的多项突破。   先进的机器翻译背后蕴含着怎样的高科技呢?下面我们一探究竟。   互联网学霸:   高质量翻译知识获取技术   蹒跚学步是新生儿必须经历的过程,当一个人接触到翻译这个工作的时候, 熟悉和掌握大量的双语词句就是这个学步的过程。只有了解了大量语句的常用翻译方法,才可以举一反三,融会贯通。我们可以将这个过程理解为“背诵例句”的过程。作为个人,要背诵成百上千的例句就颇为不易,挑灯夜战,痛苦不堪,往往还需要反复背诵以加深记忆。   百度机器翻译同样有着这样“背诵例句”的过程,所不同的是,它的背诵能力超出了大多数人的想象。   百度研发了基于互联网大数据的高质量翻译知识获取技术,突破了传统翻译知识获取规模小、成本高的瓶颈。互联网就是百度机器翻译的语料库的来源,而基于网页自主拓扑结构和内容互译计算的语料获取方法,也解决了互联网翻译知识质量控制的难题。   百度机器翻译“背诵例句”的规模有多大,通过一个数据可以窥豹一斑:“例句”的数量如果按照字数换算成《大英百科全书》,翻译系统在一周内学习的内容相当于千万部《大英百科全书》。   即便是最强悍的人类学霸,在这种规模的语料学习前也将一败涂地。   翻译方法的突破:   基于互联网大数据的翻译方法   如果将互联网大数据比喻为浩瀚的大海,传统方法犹如一叶扁舟,难以应对互联网大数据带来的冲击。要想显著的提高翻译质量,必须打破传统方法的束缚,打造能够乘风破浪的翻译航空母舰。   百度翻译提出了基于互联网大数据的机器翻译模型,融合了多种翻译策略,并实现了机器翻译云平台与算法的充分优化与融合。一天之内即可完成全网超过2000亿网页双语资源的模型训练,稳定响应每天近亿次的翻译请求。   举一反三 融会贯通:   枢轴语言机器翻译技术   尽管互联网带来了数据量的激增,但是数据量是不均衡的。对于很多小语种而言,互联网上的数据仍然非常匮乏,比如哈萨克语、斯洛文尼亚语、泰语等。俗话说“巧妇难为无米之炊“,如何开发高质量的小语种翻译系统,是一个世界级难题。   百度提出了枢轴语言机器翻译技术,攻克了机器翻译语种覆盖度受限的难题,使得资源稀缺的小语种翻译成为可能。以枢轴语言为桥梁,充分挖掘“源语言-枢轴语言”以及“枢轴语言-目标语言”之间潜在的对应关系,构建大规模高质量翻译模型。例如,开发高质量的“中-泰”翻译系统,可以以英语作为枢轴语言,通过“中-英”“英-泰“的丰富资源建立”中-泰“翻译模型。   通过以上技术,在小语种资源匮乏的情况下,降低了新语种资源获取和新翻译方向开发的成本,平均11天部署1个新语种。而如果是让人类从零开始掌握一门语言,11天无疑是天方夜谭,即便是对于传统的机器翻译技术来说,新语言部署周期动辄需要数月或数年的时间。   百度翻译助力一带一路腾飞   机器翻译一直被公认为是人工智能领域最难的课题之一。让机器理解语言,进而实现不同语言之间的翻译,是人类一直以来的梦想。   互联网大数据给机器翻译研究带来新的机遇和挑战,使得海量翻译知识的自动获取和实时更新成为可能,百度翻译在机器翻译系统框架、翻译模型与算法、多语种翻译技术等方面取得重大突破,自主研发了基于互联网大数据的机器翻译系统,使我国掌握了使我国掌握了互联网机器翻译的核心技术,占据了该领域的技术制高点。   目前,百度翻译覆盖了全球超过5亿用户,每日响应近亿次的翻译请求,百度翻译开放平台为上万个第三方应用提供免费服务,即帮助普通用户跨语言获取信息和服务,自由沟通和交流,也促进了国际贸易、跨境经济文化合作。   习近平主席对一带一路有一个形象的比喻:如果将“一带一

文档评论(0)

lxiencan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档