- 10
- 0
- 约2.99万字
- 约 14页
- 2017-04-01 发布于北京
- 举报
基于树到串模型强化的层次短语机器翻译解码方法.pdf
第39卷 第4期
2016年4月
计 算 机 学 报
CHINESEJOURNALOFCOMPUTERS
Vol.39 No.4
Apr.2016
收稿日期在线出版日期本课题得到国家自然科学基金61272376、中国博士后科学基金
(2013M530131)资助.肖 桐,男,1982年生,博士,讲师,主要研究方向为机器翻译、自然语言处理.Email:xiaotong@mail.neu.edu.cn.
朱靖波,男,1973年生,博士,教授,主要研究领域为机器翻译、自然语言处理.
基于树到串模型强化的层次短语
机器翻译解码方法
肖 桐 朱靖波
(东北大学信息科学与工程学院 沈阳 110819)
摘 要 文中研究了利用树到串模型对层次短语模型进行强化的统计机器翻译解码方法.其基本框架是把层次短
语模型作为基础模型,而把树到串模型作为层次短语模型的补充,增加翻译推导空间大小.文中重点研究了在该框
架下的统计机器翻译解码技术,并提出了多种解码策略,包括基于树的精确解码策略、基于树的模糊解码策略和基
于串的解码策略.通过NIST汉英翻译任务上的实验结果显示,文中所研究的方法可以十分有效地提升基线层次短
语系统的翻译性能,比如在newswire和web数据上分别提高了1.3和1.2个BLEU点.此外,文中分析了若干影
响翻译性能的因素,并给出了对比实验结果.
关键词 统计机器翻译;层次短语模型;树到串模型;规则抽取;解码;社会媒体;社交网络;自然语言处理;机器翻译
中图法分类号 TP391 DOI号 10.11897/SP.J.1016.2016.00808
OnDecodingwithAugmentedHierarchicalPhrase-BasedTranslation
ModelsUsingTree-to-StringModels
XIAOTong ZHUJingBo
(CollegeofInformationScienceandEngineering,NortheasternUniversity,Shenyang 110819)
Abstract WestudydecodingmethodstoaugmentahierarchicalphrasebasedMachineTranslation
(MT)systemwithatreetostringmodelinthispaper.Inthisframeworkthehierarchicalphrase
basedmodelisregardedasthebasemodel,andthetreetostringmodelisemployedtoenlarge
thederivationspace.Inparticular,wepresentseveraldecodingstrategies,includingtreebased
exactdecoding,treebasedfuzzydecodingandstringbaseddecoding.Weexperimentwithour
approachinastateoftheartMTsystemontheNISTMTevaluationdata.Experimentalresults
showthatitoutperformsastrongbaselineover1.3and1.2BLEUpointsonthenewswireand
webdatarespectively.Moreover,weshowasystematiccomparisonofseveralfactorsthataffect
thetranslationquality.
Keywords statisticalmachinetranslation;hierarchicalphrasebasedmodel;treetostringmodel;
ruleextraction;decoding;socialmedia;socialnetworks;naturallanguageprocessing;machine
translation
1 引 言
基于句法的统计机器翻译模型在最近十年中取
得了前所未有的发展.其中最成功的一类模型是基
于同步上下文无关文法(SCFG)的层次短语模型[1].
在该模型中,由于翻译规则的抽取没有使用任何的
源语(或者目标语)语言学句法信息做约束,因此可
以学习到数量巨大的翻译规则.为了把规则数量控
制在可接受的范围内,现在广泛的做法是在SCFG
规则抽取和使用阶段引入一些限制,比如:解码时
SCFG规则被应用的源语言跨度①不能超过一个阈
值(比如1
您可能关注的文档
- 2000-2012年山西省旅游业碳排放的时空差异.pdf
- C形状分析在函数和路径层次上的并行化.pdf
- GBT 22849《针织T恤衫》新旧标准差异浅析.pdf
- Hunt-HessⅢ~Ⅳ级动脉瘤性蛛网膜下腔出血患者血管介入栓塞与开颅夹闭手术后并发脑积水差异的比较及预后分析.pdf
- miRNA 在哮喘小鼠肺组织及肥大细胞中的表达差异.pdf
- MRI各序列上的信号特点差异在诊断类风湿性关节炎中的价值探讨.pdf
- OLCC与CUCC丛编编目差异分析.pdf
- WSN中层次型拓扑控制与网络资源配置联合设计方法.pdf
- “纵向四层次,横向四模块”的高职院校内部治理结构研究.pdf
- “要害”、“地气”与“理性的乐趣”--议论文写作教学中逻辑层次的导入与解构.pdf
- 2025-2026学年天津市和平区高三(上)期末数学试卷(含解析).pdf
- 2025-2026学年云南省楚雄州高三(上)期末数学试卷(含答案).pdf
- 2025-2026学年甘肃省天水市张家川实验中学高三(上)期末数学试卷(含答案).docx
- 2025-2026学年福建省厦门市松柏中学高二(上)期末数学试卷(含答案).docx
- 2025-2026学年广西钦州市高一(上)期末物理试卷(含答案).docx
- 2025-2026学年河北省邯郸市临漳县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省石家庄二十三中七年级(上)期末历史试卷(含答案).docx
- 2025-2026学年海南省五指山市九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省唐山市玉田县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省邢台市市区九年级(上)期末化学试卷(含答案).docx
原创力文档

文档评论(0)