- 0
- 0
- 约9万字
- 约 64页
- 2026-01-21 发布于江西
- 举报
摘要
作为自然语言处理的经典任务之一,机器翻译旨在利用计算机程序自动将源语
言的文本翻译成目标语言的文本,同时保持语义等价。传统机器翻译方法大多需要
大量的双语数据用于训练模型,在面对特定领域文本或低资源语言时往往效果欠佳。
检索知识增强的神经机器翻译方法通过检索翻译时所需的知识对上述场景下的机
器翻译模型进行增强,其中,最近邻机器翻译(k-Nearest-NeighborMachineTranslation,
kNN-MT)方法近年来受到研究者的广泛关注,其优势在于无需对模型进行重训练
即可利用检索到的知识来提升原模型的翻译效果,从而避免了模型重训练带来的昂
贵成本。
最近邻机器翻译首先将训练集数据构建为一个数据存储,在翻译时从数据存储
中检索词级别的领域知识并导出最近邻分布,最后将最近邻分布与原始分布进行插
值以提升翻译的准确率。然而,现有最近邻机器翻译技术相对缺乏对源端上下文信
息的考虑,可能导致次优的翻译效果;同时,最近邻机器翻译技术需要构建庞大的
数据存储,在存储空间方面也带来了更高的代价需求。基于此,本文提出了两种新
的最近邻机器翻译方法,分别从翻译效果与翻译效率的角度进行改进。主要研究工
作如下:
(1)为提升翻译效果,本文提出了一种检索感知的最近邻机器翻译方法。该方
法由辅助检索模块、距离校准模块与自适应插值模块三部分组成。辅助检索模块使
用相似源句构造辅助数据存储,扩充待检索知识;距离校准模块利用源端上下文距
离对检索条目的最近邻距离进行校准;自适应插值模块动态地根据检索结果的质量
对插值系数进行控制,以缓解低质量检索噪声带来的影响。在领域适应翻译与域内
翻译设定下的实验结果显示:本文提出的检索感知的最近邻机器翻译方法显著优于
参与比较的强基线方法。
(2)为提升翻译效率,本文提出了一种知识增强的最近邻机器翻译方法。具体
而言,该方法先根据原始数据存储的目标词对条目进行聚类,将聚类中心组合为新
的数据存储,并将其作为可学习的参数矩阵融合到模型中;引入适配器机制用于优
化最近邻检索时的查询表示。通过协同训练数据存储与适配器,使得最近邻检索的
键与查询在语义空间中的位置得到进一步优化。在多个公开数据集上的实验结果表
明:所提方法能够在有效压缩数据存储的同时保持相似甚至更优的翻译效果,还能
辅助提升最近邻检索的准确率。
关键词:神经机器翻译;最近邻检索;检索增强;自适应检索;知识增强
Abstract
Asoneoftheclassictasksinnaturallanguageprocessing,machinetranslationaims
tousecomputerprogramstoautomaticallytranslatetextfromasourcelanguageintoa
targetlanguagewhilemaintainingsemanticequivalence.Traditionalmachinetranslation
methodsoftenrequirealargeamountofbilingualdatafortrainingthemodelandtendto
performpoorlywhendealingwithspecificdomaintextsorlow-resourcelanguages.The
methodofneuralmachinetranslationenhancedbyretrievalknowledgeaimstoenhance
themachinetranslationmodelundertheaforementionedscenariosbyretrievingthe
knowledgeneededfortranslation.Inparticular,thek-Nearest-NeighborMachine
Translation(kNN-MT)methodhasreceivedwidespreadattentionfromresearche
您可能关注的文档
- 基于召唤结构的小学古诗词审美教学研究.pdf
- 基于知识融合的句子级事件关系抽取技术研究.pdf
- 基于知识图谱的网络攻击路径预测技术.pdf
- 基于质量管理体系的项目管理系统优化.pdf
- 健康类短视频在农村居民中传播效果的影响因素研究.pdf
- 教育投入对相对贫困代际传递的影响.pdf
- 离婚时夫妻股权分割问题研究.pdf
- 利用分组模式促进高中历史教学的实践研究——以云南省下关第一中学为例.pdf
- 联合认知偏向与社交焦虑的关系研究.pdf
- 流量时代“媛文化”的症候及纠治研究.pdf
- 2025广东广州市天河区拟招聘英语实习老师1人备考题库附答案.docx
- 2025广东广州市天河区城市管理第二保洁所招聘编外工作人员4人笔试备考试卷附答案解析.docx
- 2025广东广州市越秀区流花街道办事处招聘综合事务中心辅助人员1人笔试历年题库附答案解析.docx
- 2025广东广州市花都区新雅街清初级中学招聘临聘教师1人备考历年题库带答案解析.docx
- 2025广东广州市天河区城市管理第二保洁所招聘编外工作人员4人笔试备考试卷带答案解析.docx
- 江苏省盐城市东台市三仓镇区中学2026届八年级数学第一学期期末教学质量检测试题含解析.doc
- 2025广东广州市天河区城市管理第二保洁所招聘编外工作人员4人备考题库带答案解析.docx
- 江苏省盐城市亭湖区2026届数学八上期末考试试题含解析.doc
- 安徽省蚌埠市淮上区2026届数学八年级第一学期期末达标检测模拟试题含解析.doc
- 2025广东广湛城旅游轮有限公司招聘备考历年题库附答案解析.docx
最近下载
- 某县纪委书记、监委主任2025年度民主生活会对照检查材料.docx VIP
- 项目8 物料识别系统搭建教学设计 高教版 传感器技术应用(双色).doc VIP
- 时政分享(修订版).pptx VIP
- 花椒管理技术课件.pptx
- 青岛版小学六年级科学上册全套一至五单元含填空大题-完整版全册.pdf VIP
- 2024年09月06日省环境评审中心账号高地500千伏输变电工程环境影响报告书技术评估报告.pdf VIP
- 2025年高一必修一生物期末考试卷及答案.doc VIP
- 武汉大学抬头信签纸.docx VIP
- 双曲线的焦半径圆性质探索过程.doc VIP
- (22页PPT)机房搬迁服务解决方案.pptx VIP
原创力文档

文档评论(0)