检索知识增强的神经机器翻译技术研究.pdfVIP

  • 0
  • 0
  • 约9万字
  • 约 64页
  • 2026-01-21 发布于江西
  • 举报

检索知识增强的神经机器翻译技术研究.pdf

摘要

作为自然语言处理的经典任务之一,机器翻译旨在利用计算机程序自动将源语

言的文本翻译成目标语言的文本,同时保持语义等价。传统机器翻译方法大多需要

大量的双语数据用于训练模型,在面对特定领域文本或低资源语言时往往效果欠佳。

检索知识增强的神经机器翻译方法通过检索翻译时所需的知识对上述场景下的机

器翻译模型进行增强,其中,最近邻机器翻译(k-Nearest-NeighborMachineTranslation,

kNN-MT)方法近年来受到研究者的广泛关注,其优势在于无需对模型进行重训练

即可利用检索到的知识来提升原模型的翻译效果,从而避免了模型重训练带来的昂

贵成本。

最近邻机器翻译首先将训练集数据构建为一个数据存储,在翻译时从数据存储

中检索词级别的领域知识并导出最近邻分布,最后将最近邻分布与原始分布进行插

值以提升翻译的准确率。然而,现有最近邻机器翻译技术相对缺乏对源端上下文信

息的考虑,可能导致次优的翻译效果;同时,最近邻机器翻译技术需要构建庞大的

数据存储,在存储空间方面也带来了更高的代价需求。基于此,本文提出了两种新

的最近邻机器翻译方法,分别从翻译效果与翻译效率的角度进行改进。主要研究工

作如下:

(1)为提升翻译效果,本文提出了一种检索感知的最近邻机器翻译方法。该方

法由辅助检索模块、距离校准模块与自适应插值模块三部分组成。辅助检索模块使

用相似源句构造辅助数据存储,扩充待检索知识;距离校准模块利用源端上下文距

离对检索条目的最近邻距离进行校准;自适应插值模块动态地根据检索结果的质量

对插值系数进行控制,以缓解低质量检索噪声带来的影响。在领域适应翻译与域内

翻译设定下的实验结果显示:本文提出的检索感知的最近邻机器翻译方法显著优于

参与比较的强基线方法。

(2)为提升翻译效率,本文提出了一种知识增强的最近邻机器翻译方法。具体

而言,该方法先根据原始数据存储的目标词对条目进行聚类,将聚类中心组合为新

的数据存储,并将其作为可学习的参数矩阵融合到模型中;引入适配器机制用于优

化最近邻检索时的查询表示。通过协同训练数据存储与适配器,使得最近邻检索的

键与查询在语义空间中的位置得到进一步优化。在多个公开数据集上的实验结果表

明:所提方法能够在有效压缩数据存储的同时保持相似甚至更优的翻译效果,还能

辅助提升最近邻检索的准确率。

关键词:神经机器翻译;最近邻检索;检索增强;自适应检索;知识增强

Abstract

Asoneoftheclassictasksinnaturallanguageprocessing,machinetranslationaims

tousecomputerprogramstoautomaticallytranslatetextfromasourcelanguageintoa

targetlanguagewhilemaintainingsemanticequivalence.Traditionalmachinetranslation

methodsoftenrequirealargeamountofbilingualdatafortrainingthemodelandtendto

performpoorlywhendealingwithspecificdomaintextsorlow-resourcelanguages.The

methodofneuralmachinetranslationenhancedbyretrievalknowledgeaimstoenhance

themachinetranslationmodelundertheaforementionedscenariosbyretrievingthe

knowledgeneededfortranslation.Inparticular,thek-Nearest-NeighborMachine

Translation(kNN-MT)methodhasreceivedwidespreadattentionfromresearche

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档