- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
利用依存限制抽取长距离调序规则*
摘 要:
长距离调序是统计机器翻译领域的一个重要问题。层次短语模型提供了一个很好的解决方案,它使用层次短语规则可以很好地表示局部调序和长距离调序。但是,使用传统的算法抽取长距离层次规则将会导致规则表数量急剧增加,从而加大解码内存和时间消耗。为了解决这个问题,我们提出了一种利用依存限制抽取长距离调序规则的新方法。我们的实验表明,我们的方法可以比基准系统高出0.74个BLEU点。
关键词:统计机器翻译,层次短语模型,长距离调序,依存限制
中图分类号:TP391
Extract Long Distance Reordering Rules with Dependency Restriction
Abstract:
Long distance reordering is a key problem in statistical machine translation (SMT). Hierarchical phrase-based model offers an alternative to address this problem by using hierarchical rules that could characterize both local and long distance reordering. However, extracting long distance reordering rules with traditional algorithm will make decoder time-and-memory consuming. We propose a new algorithm to extract long distance reordering rules with an extra dependency restriction. Our experiments show that our method achieves 0.74 point improvement in BLEU score.
Key words: Statistical Machine Translation; Hierarchical Phrase-based Model; Long Distance Reordering; Dependency Restriction
1 前言
过去十年,我们见证了机器翻译领域的快速发展。短语模型[1, 2]通过使用短语翻译替代字翻译来提高翻译质量,句法模型通过加入句法信息进一步提高翻译质量。两类模型各有优缺点,具体如下表所示。
模型 优势 不足 短语模型 1.很好地刻画短语内部的调序
2.不依赖其他句法信息 1.短语间的调序较差 句法模型 1.很好地刻画短语内部和短语间的调序 1.依赖句法分析 表1. 短语模型和句法模型的优势和不足
层次短语模型使用上下文无关语法规则来综合基于短语模型和基于句法模型的优势,能够很好地刻画短语内部和短语间的调序,并且不依赖于句法分析。(Chiang, 2007)表明使用层次短语模型可以比当前最好的短语模型高出1到3个BLEU点。
层次短语模型通过层次规则来表示短语间的调序。由于层次规则是从初始规则中泛化而来的,如果要抽取隐含长距离调序信息的规则,则必须先抽取长跨度的初始短语。这将会生成巨大的规则表,从而导致极大的解码系统内存和时间消耗。为了避免这个问题,Chiang(2007)限制了初始短语的最大跨度的阈值。但是,这样会削弱模型的长距离调序能力,因为规则无法表示跨度大于阈值的短语间的长距离调序。
依存树能在一定程序上反映调序信息。Quirk et al., 2005)在源端使用依存树以训练一个调序模型;Shen et al., 2008)通过引入依存语言模型来刻画目标端依存结构中的长距离词之间的关系;Ding and Palmer, 2005)使用依存树上定义的概率同步依存插入语法。
受上述工作的启发,我们提出了一个基本但有效的方法以在层次短语模型上抽取长距离调序规则。首先,我们对训练语料的源端进行依存分析。然后,我们抽取源端为一棵完整依存子树或几棵完整依存子树集合的长距离调序规则。实验表明,我们的方法可以得到0.74个BLEU点的提高,并且规则表数量增加不大。
在剩余的章节,我们安排如下:第2节,我们先简单介绍短语的调序及分析为什么短语模型在短语的调序方面表现较差;第3节,我们介绍层次短语模型,并分析它的优势和存在的问题;第4节,我们描述如何利用依存限制抽取长距离调序规则,以解决层次短语存在的问题,并且为了解决由此带来的解码速度过慢的问题,我们提出了利用前缀树快速匹配规则的方法;第5节,我们展示实验结果及分析
您可能关注的文档
最近下载
- Korn-Ferry-方案-构建成功者画像.pdf VIP
- 铭记抗战历史,弘扬爱国精神——纪念抗日战争胜利八十周年主题班会.pptx VIP
- 扣押决定书文书范本.doc VIP
- 人民大2024现代大学美育 教学课件认识美——万物皆美(第一章 美是什么)(1).pptx VIP
- 人民大2024现代大学美育 教学课件认识美——万物皆美(第二章 何为美育)(1).pptx VIP
- 项目策划培训课件.ppt VIP
- 人民大2024现代大学美育 教学课件艺术美——美美与共(第十一章造型艺术美)(陈琳、刘晓晓).pptx VIP
- 大学美育课件:中国艺术美-音乐美.pptx VIP
- 文化旅游项目策划报告.pptx VIP
- 大学美育课件:中国艺术美-绘画美.pptx VIP
文档评论(0)