基于树到串模型强化的层次短语机器翻译解码方法.pdfVIP

  • 10
  • 0
  • 约2.99万字
  • 约 14页
  • 2017-04-01 发布于北京
  • 举报

基于树到串模型强化的层次短语机器翻译解码方法.pdf

基于树到串模型强化的层次短语机器翻译解码方法.pdf

第39卷 第4期 2016年4月 计 算 机 学 报 CHINESEJOURNALOFCOMPUTERS Vol.39 No.4 Apr.2016 收稿日期在线出版日期本课题得到国家自然科学基金61272376、中国博士后科学基金 (2013M530131)资助.肖 桐,男,1982年生,博士,讲师,主要研究方向为机器翻译、自然语言处理.Email:xiaotong@mail.neu.edu.cn. 朱靖波,男,1973年生,博士,教授,主要研究领域为机器翻译、自然语言处理. 基于树到串模型强化的层次短语 机器翻译解码方法 肖 桐 朱靖波 (东北大学信息科学与工程学院 沈阳 110819) 摘 要 文中研究了利用树到串模型对层次短语模型进行强化的统计机器翻译解码方法.其基本框架是把层次短 语模型作为基础模型,而把树到串模型作为层次短语模型的补充,增加翻译推导空间大小.文中重点研究了在该框 架下的统计机器翻译解码技术,并提出了多种解码策略,包括基于树的精确解码策略、基于树的模糊解码策略和基 于串的解码策略.通过NIST汉英翻译任务上的实验结果显示,文中所研究的方法可以十分有效地提升基线层次短 语系统的翻译性能,比如在newswire和web数据上分别提高了1.3和1.2个BLEU点.此外,文中分析了若干影 响翻译性能的因素,并给出了对比实验结果. 关键词 统计机器翻译;层次短语模型;树到串模型;规则抽取;解码;社会媒体;社交网络;自然语言处理;机器翻译 中图法分类号 TP391 DOI号 10.11897/SP.J.1016.2016.00808 OnDecodingwithAugmentedHierarchicalPhrase-BasedTranslation ModelsUsingTree-to-StringModels XIAOTong ZHUJingBo (CollegeofInformationScienceandEngineering,NortheasternUniversity,Shenyang 110819) Abstract WestudydecodingmethodstoaugmentahierarchicalphrasebasedMachineTranslation (MT)systemwithatreetostringmodelinthispaper.Inthisframeworkthehierarchicalphrase basedmodelisregardedasthebasemodel,andthetreetostringmodelisemployedtoenlarge thederivationspace.Inparticular,wepresentseveraldecodingstrategies,includingtreebased exactdecoding,treebasedfuzzydecodingandstringbaseddecoding.Weexperimentwithour approachinastateoftheartMTsystemontheNISTMTevaluationdata.Experimentalresults showthatitoutperformsastrongbaselineover1.3and1.2BLEUpointsonthenewswireand webdatarespectively.Moreover,weshowasystematiccomparisonofseveralfactorsthataffect thetranslationquality. Keywords statisticalmachinetranslation;hierarchicalphrasebasedmodel;treetostringmodel; ruleextraction;decoding;socialmedia;socialnetworks;naturallanguageprocessing;machine translation 1 引 言 基于句法的统计机器翻译模型在最近十年中取 得了前所未有的发展.其中最成功的一类模型是基 于同步上下文无关文法(SCFG)的层次短语模型[1]. 在该模型中,由于翻译规则的抽取没有使用任何的 源语(或者目标语)语言学句法信息做约束,因此可 以学习到数量巨大的翻译规则.为了把规则数量控 制在可接受的范围内,现在广泛的做法是在SCFG 规则抽取和使用阶段引入一些限制,比如:解码时 SCFG规则被应用的源语言跨度①不能超过一个阈 值(比如1

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档