基于elmo的低资源神经机器翻译模型.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于elmo的低资源神经机器翻译模型 摘要:低资源神经机器翻译的研究难点是缺乏大量的平行语料来给模型进行训练。随着预训练模型的发展,并且在各大自然语言处理任务中均取得很大的提升,本文提出一种融合ELMO预训练模型的神经机器翻译模型来解决低资源神经机器翻译问题。本文模型在土耳其语-英语低资源翻译任务上相比于反向翻译提升超过0.7个BLEU,在罗马尼亚语-英语翻译任务上提升超过0.8个BLEU。此外,在模拟的中-英、法-英、德-英、西-英这4组低资源翻译任务上相比于传统神经机器翻译模型分别提升2.3、3.2、2.6、3.2个BLEU。实验表明使用融合ELMO的模型来解决低资源神经机器翻译问题是有效的。 0 引言 近年来,随着深度学习的快速发展,在机器翻译(Machine Translation,MT)领域采用了许多深度学习算法 采用深度学习模型的机器翻译之所以会效果很好,是因为它能从平行语料中提取语句的关键信息,并进行向量化表示。在训练过程中,平行语料的规模决定了模型能否提取更多的语句信息,平行语料规模越大,提取的语言信息就越多,翻译的效果就越好,反之,翻译效果就越差。随着预训练模型的发展,研究人员相继提出了多种预训练模型,如:Word2Vec 本文针对在低资源情况下的神经机器翻译的缺陷,提出一种基于ELMO预训练模型的低资源机器翻译方法。在传统的NMT模型的基础上融合ELMO预训练模型,以少量的平行语料数据去训练模型。在土耳其语-英语翻译任务上相比于反向翻译提升近0.7个BLEU,在罗马尼亚语-英语翻译任务上提升近0.8个BLEU。为验证融合模型在多种语言翻译任务中的有效性,以传统的NMT模型训练出来的结果为基线模型,在中-英、法-英、德-英、西-英这4组低资源翻译任务上相比于传统神经机器翻译模型分别提升2.3、3.2、2.6、3.2个BLEU。 1 相关工作 Koehn等人 其中通过数据增强的方式来改进低资源神经机器翻译的效果较好。由于在统计机器翻译中目标语言的单语数据在语言流畅度上扮演着重要的角色 还有许多研究人员通过对模型的创新来解决低资源神经机器翻译的难题。Zoph等人 2 模型 2.1 NMT模型 Bahdanau等人 解码器是由循环神经网络组成用来预测目标序列y=(y 2.2 ELMO预训练模 Peters等人 模型采用了经典的2阶段网络结构,第1个阶段是利用语言模型进行预训练;第2个阶段是在做下游任务时,从预训练网络中提取对应单词的网络各层的词嵌入作为新特征补充到下游任务中。 模型的结构采用了双向长短期记忆网络 这个网络结构利用大量语料做语言模型任务就能预先训练好这个网络,训练好这个模型后,输入一个新句子S 2.3 融合ELMO的NMT模型 本文提出一种新的模型架构,如图2所示,在NMT模型中融合ELMO预训练模型,编码端和解码端的输入不仅仅输入到NMT模型,还要输入到EL-MO模型中。将ELMO的输出矩阵和NMT模型的嵌入矩阵进行连接操作,使用低资源平行语料对模型进行训练。 ELMO预训练模型是基于大规模的无标注数据进行训练的,它能够从大规模的数据中学习到语言知识,这使得ELMO能够捕捉到更加通用的语言规律。将编码端和解码端的输入喂给ELMO模型,得到的输出能够捕捉到输入的词性、句法、语法等信息。然后将ELMO的输出和嵌入矩阵进行拼接,将包含词性、句法、语法信息的ELMO输出一起送入模型进行训练,使得模型能够学习到更多的语法表示,从而提高模型的翻译质量。Peters等人 在编码阶段,将序列x=(x 将拼接后的矩阵作为嵌入矩阵,在编码阶段经过编码得到输出序列h=(h 其中,h 在解码阶段,输入序列y=(y 其中,p(y 其中,α 其中,e 其中,a的计算公式如式(7)所示: 其中,v 3 数据和实验 为验证融合模型的有效性,本文在土耳其语-英语和罗马尼亚语-英语这2组低资源平行语料上进行实验,此外为了验证融合模型在多种语言翻译任务的有效性,分别模拟在低资源情况下中-英、法-英、德-英、西-英翻译任务来评估模型的性能。 3.1 数据和数据预处理 土耳其语-英语平行语料来源于WMT17的新闻翻译任务,共有20万平行句对。罗马尼亚语-英语平行语料来源于WMT16翻译任务 对于所有的平行语料都采用MOSES脚本对其进行预处理,包括分词、大小写转换等。然后使用字节对编码 3.2 实验设置 模型训练参数如下:在编码端采用双向循环神经网络作为编码器,在解码端采用双层LSTM作为解码器;词嵌入的维度为512维;编码器和解码器的隐藏层维度为1024维,采用Adam优化算法 在土耳其语-英语和罗马尼亚语-英语翻译任务上,在原有的平行语料上加入反向翻译 在模

文档评论(0)

lgjllzx + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档