- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
翻译官罗伯特
互联网上经常会流传一些中文翻译成英文时闹出的“乌龙”。比如江西省上饶市公安局三清山分局2011年在当地风景区内竖立的一块信息服务牌上,将“有困难,找警察”错误地翻译成“Difficult to find the police”,被眼尖的网友拍照发到了网上,变成一个尴尬的笑话。
如果说当年的错误应由翻译软件负责,最近一两年,我们越来越难把责任再推给它们了。基于神经网络的机器翻译已经将翻译的质量提高到一个新层次―比如“有困难,找警察”,如今Google翻译给出的英文结果是“There are difficulties,to find police”―不完美,但至少和中文的意思大?w一致。这是因为从2016年9月开始,Google采用了一种全新的方法―用Google神经机器翻译(GNMT)系统来做双语翻译。
一直以来,包括Google在内,提供机器翻译服务的公司都在追求更好的翻译效果和更高的翻译效率。
此前,统计机器翻译(SMT)是最主流的机器翻译技术,它通过对大量的平行语料做统计分析,构建统计翻译模型,然后使用该模型翻译。
以中文和英文之间的翻译为例,搜狗语音交互中心技术负责人陈伟向《第一财经周刊》解释,“这种翻译方式是把句子的翻译切分成单词、短语,建立中文、英文短语之间的影射关系,然后使用语言模型把中文短语翻译成英文的短语。”
也就是说,翻译的过程实际上是计算概率统计的过程,翻译引擎本身没有规则或语法概念。Google、百度等搜索引擎公司可以搜索大量的双语网页内容,自动选取概率最大的词与词的对应关系,最后给出翻译结 果。
使用这种方式,其效果就像我们常常看到的―每个单词的翻译都正确,连在一起有时却不是通顺的、符合语法逻辑和理解习惯的正确句子,有时甚至出现意思完全相悖的情况。这是因为,统计机器翻译质量的高低,往往取决于概率模型的好坏以及语料库的覆盖,一个使用技术文本训练的翻译引擎,在翻译口语化的文本时效果会很差。
以深度学习技术为基础的神经网络机器翻译模型的出现,正在改善这一状况。
Google的GNMT系统的理论,最早公开出现在2014年,加拿大蒙特利尔大学Yoshua Bengio教授的研究组在开放性论文网站arXiv上发布了他们最新的研究成果,解释了这一翻译模型。
其最基本的架构是由一个编码器(encoder)和一个解码器(decoder)构成的。首先,编码器将汉语句子的每个词编码成一个向量列表,用来描述所有读取到的词的含义,然后解码器从向量列表中读取参数,把这些词向量逐个替换成译句中的某个单词。同时,在编码器和解码器之间引入注意力(attention)机制,用来调整词与词之间的权重关系。
两年后,Google也发布了自己的相关论文,介绍了它在这方面的研究和实践。在双语评估者的帮助下,通过对维基百科和新闻网站例句的测定,Google发现,在多个样本的翻译中,神经网络机器翻译系统将误差降低了55%至85%,甚至更多。
“这种方式更像人类的理解方式。”有道首席科学家段亦涛对《第一财经周刊》说,“先把句子理解了,再把它表达出来。”
微软也在2016年12月中旬发布了新的翻译工具,其现场翻译功能(Live Feature)可以支持多人、多语种之间的实时翻译。
现在,包括有道、百度、搜狗在内的中国技术公司都开始投入到神经网络机器翻译的研究和开发之中。实际上,这些公司使用的框架是类似的,只是在模型、数据、训练、场景等方面存在差异。
“你的模型使用什么样的单元、层次有多深、有没有一些特殊的机制在里面,得到的效果都是不一样的。”段亦涛说。每个公司都在积累和整理自己的平行语料数据,虽然学术界有一些公开的数据集,但是往往比较小,训练的差异体现在如何对参数做调整。此外,不同的公司针对的场景又有不同。
用来衡量机器翻译质量的一个通行指标是BLEU值,其原理是比较机译结果和人译结果的相似度,完全一致得分为100。Google之前的统计型翻译引擎的BLEU值大约维持在40标准加号的水平。
但要横向比较目前几家公司机器翻译的质量并不容易,这一方面与它们的模型有关,另一方面与测试使用的数据集有关。段亦涛说,“任何一个模型都可以针对一个数据集调到非常不错的水平。”也就是说,数据集的选取如果不与应用场景结合,测试的结果就很难反映该模型的质量。
表面上看,在这项新技术面前,大家都处于同一条起跑线。不过段亦涛认为,“上手容易,做好不容易,进一步提高更难。”
神经网络机器翻译对数据量和计算量的要求非常高。百度、搜狗等搜索引擎公司往往有更多的平行语料,而有道原本的翻译服务也提供了更多有用的数据。
“相较于传统的统计机器翻译,神经网络机器
原创力文档


文档评论(0)