网站大量收购闲置独家精品文档,联系QQ:2885784924

基于多元信息融合的神经机器译文自动评价方法.pdf

基于多元信息融合的神经机器译文自动评价方法.pdf

  1. 1、本文档共61页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

摘要

机器译文自动评价是指使用计算机技术对机器翻译系统输出译文的质量进

行自动评价,它是机器翻译领域的一项重要研究任务,对机器翻译系统的优化起

着指导作用。目前机器译文自动评价领域的研究主流为基于神经网络的机器译文

自动评价。

最新的神经机器译文自动评价方法使用预训练语境词向量提取深层语义特

征,并将它们直接拼接输入多层神经网络预测译文质量,其中直接拼接操作容易

导致特征间缺乏深入融合;而逐层抽象进行预测时容易丢失细粒度准确匹配信

息。针对以上问题,本文提出基于多元信息融合的神经机器译文自动评价方法,

该译文自动评价方法引入中期信息融合方法和后期信息融合方法,使用拥抱融合

对不同特征进行交互中期融合,基于细粒度准确匹配的句移距离和句级余弦相似

度进行后期融合,实现细粒度准确匹配信息的引入和不同语义特征的高效融合。

另一方面,当前的机器译文自动评价主要通过大规模预训练语言模型直接提

取机器译文和参考译文的语义表征后计算表征相似度,然而当前的预训练语言模

型可能会将语义相近的句子映射到相距较远的稠密向量空间中。针对该问题,本

文提出引入孪生相似特征的神经机器译文自动评价方法,该方法使用孪生网络结

构对预训练语言模型进行微调,使其能够将语义相似的句子映射到相近的稠密向

量空间中,从而更适用于机器译文自动评价领域。然后使用微调完成的孪生预训

练语言模型提取语义相似特征,并将该特征引入神经机器译文自动评价方法中,

以提升评价模型性能。

为了验证所提方法的有效性,在WMT’21MetricsTask基准数据集上进行实

验,实验结果表明,本文所提方法能有效提高其与人工评价的相关性,达到与参

加评测最优系统的可比性能。

关键词:机器翻译;译文自动评价;信息融合;信息表征;拥抱融合

I

Abstract

Automaticevaluationofmachinetranslationisanimportantresearchtaskinthe

fieldofmachinetranslation,whichreferstothequalityevaluationofmachine

translationsystemoutputbycomputertechnology.Theguidanceprovidedby

automaticevaluationofmachinetranslationisvitalforoptimizingmachinetranslation

systems.Currently,themainstreamapproachtoautomaticevaluationofmachine

translationisbasedonneuralnetwork.

Thelastestneuralautomaticevaluationmethodsofmachinetranslationuse

pre-trainedcontextualembeddingstoextractdifferentdeepsemanticfeatures,and

thensimplyconcatenatethemfeedintothemulti-layerneuralnetworktopredict

translationquality.Simplyconcatenatedfeaturesresultsinlackofdeepfusion

betweenfeatures.Andfine-grainedaccuratematchinginformationtendstobelost

whenl

您可能关注的文档

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档