基于联合语义与多语义空间的机器译文质量估计方法研究.pdfVIP

  • 0
  • 0
  • 约10.91万字
  • 约 66页
  • 2026-01-12 发布于江苏
  • 举报

基于联合语义与多语义空间的机器译文质量估计方法研究.pdf

摘要

在不需要人工参考译文对照的情况下,仅利用源语言句子对机器译文的

质量进行评估是机器译文质量估计任务的目标。当前主流方法主要利用预训

练语言模型提取机器译文的质量表征,并通过前馈神经网络预测质量分数。根

据表征提取方式的不同,这些方法可分为统一表征提取和独立表征提取两类。

然而,现有方法仅通过比较源语言句子与机器译文之间的语义差异来评估质

量,难以全面捕捉机器译文的语义特征,导致译文质量估计的准确性和可靠性

不足。

为解决上述问题,本文提出了一种基于联合语义的机器译文质量估计方

法。该方法利用大语言模型和相应提示对源语言句子进行翻译生成伪参考译

文,对机器译文进行翻译生成回译;使用跨语言预训练模型采用统一表征提取

方式,同时获取源语言句子与回译、源语言句子与机器译文以及伪参考译文与

机器译文三组句对的语义质量表征;将这三组语义质量表征输入前馈神经网

络,分别预测语义质量得分;通过线性融合得到机器译文的质量分数。

为了更好地利用由大语言生成的伪参考译文和回译中的语义信息,本文

提出了一种基于多语义空间的机器译文质量估计方法。该方法同样利用大语

言模型生成伪参考译文和回译;利用跨语言预训练模型,结合统一表征和独立

表征提取方式,分别在三个语义空间中提取机器译文质量特征:源语言语义空

间、跨语言语义空间以及目标语言语义空间;通过多头注意力机制和前馈神经

网络将它们融合成多语义空间特征,构建端到端的机器译文质量估计神经网

络模型,进一步提高了机器译文质量估计方法的性能。

在WMT’23句子级机器译文质量估计DA数据集上的实验结果表明,本

文提出的方法在多个关键指标上均取得了优异的性能,通过消融实验和详细

的实例分析,进一步验证了本文所提方法的有效性。

为了将研究工作转化为实际应用,本文设计并开发了机器译文质量估计

系统,该系统支持用户使用多种机器译文质量估计模型对多个翻译结果进行

自动化评分,为用户选择最优译文提供决策支持。

关键词:机器译文质量估计;跨语言预训练模型;语义特征;伪参考译文;

回译

I

Abstract

Qualityestimationofmachinetranslationaimstoevaluatethequalityof

machine-translatedtextssolelybasedonthesourcelanguagesentence,eliminating

theneedforhumanreferencetranslations.Currentmainstreammethodsprimarily

employpre-trainedlanguagemodelstoextractqualityrepresentationsofmachine

translationsandpredictqualityscoresthroughfeedforwardneuralnetworks.

Dependingontheextractionparadigm,thesemethodscanbecategorizedinto

unifiedrepresentationextractionandindependentrepresentationextraction.

However,existingapproachespredominantlyassessqualitybycomparingsemantic

discrepanciesbetweenthesourcesentenceandmachinetranslation,failingto

comprehensivelycapturethemulti-dimensionalsemanticfeaturesoftranslations.

Thislimitationcompromisestheaccuracyand

文档评论(0)

1亿VIP精品文档

相关文档