- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于短语模板对齐的统计机器翻译系统
杨振东 庞薇 魏玮 杜金华 陈振标 宗成庆
zdyang@hitic.ia.ac.cn
(中国科学院 自动化研究所 高技术创新中心, 北京 100080)
摘要:论文提出了一种基于短语模板对齐的机器翻译系统。系统采用基于短语模板对齐的翻译模型替代原始基于词的模型,提出了计算短语模板翻译概率的方法,改进了先前单纯基于短语的搜索算法和回溯方法,解码时引入繁衍度为0且出现频率高的词,使翻译结果更合理。论文进行了一系列实验,介绍了05年863评测,证明本系统翻译结果的Bleu得分比原来的系统有了显著提高。
关键词:统计机器翻译; 翻译模型; 搜索算法
中图分类号:T391.2
The Phrase-Template Alignment Based Statistical Machine Translation
Yang Zhendong, Pang Wei, Wei Wei, Du Jinhua, Chen Zhenbiao, Zong Chengqing
(Hi-tech Innovation Center, Institute of Automation, Chinese Academy of Science, Beijing 100080, China)
Abstract:In this paper we propose a phrase-template alignment based translation system. In the system, we use phrase-template translation model instead of word-based model. An improved method to compute phrase-template translation probability is studied. A phrase-template based decoder we developed employs a beam search algorithm, in which some target language words that have both high frequency of appearance and also fertility zero are introduced to make the result more reasonable. We improve the previously proposed tracing back algorithm to get the best path. Some experiments concerned are presented.
Key words: statistical machine translation; translation model; searching algorithm
1 简介
统计机器翻译是大词汇量文本翻译最有效的方法之一,90年代早期,IBM开发了Candide系统 [1],在此启发之下,出现了很多的统计机器翻译系统[2][3],这些系统有三部分核心技术:翻译模型,语言模型,搜索算法。基本原理是:以翻译模型制约源语言与目标语言之间词的对应,结合目标语言模型来驱动搜索进行。近年来,开发者不断研究,翻译系统从原始的基于词的翻译模型发展到更复杂的模型,基于对齐模板[4]和基于短语的翻译模型及相应的搜索算法被提出[5][6],当前很多高效的翻译系统是基于短语的统计机器翻译系统。
我们的系统是在基于短语的翻译模型中引入模板的思想,构成了一种基于短语模板对齐的中英翻译系统。系统提出了一种结合对位信息和出现频率来计算短语模板翻译概率的方法,根据汉语与英语表达方式的不同,在搜索算法上改进了原来的柱搜索算法[7],引入了繁衍度为零且出现频率较高的词的信息,并改进了回溯算法,由于翻译的质量很大程度上依赖于短语模板对的抽取,文章的第2部分研究了短语模板的定义,短语模板对的提取方法及翻译概率的计算,第3部分主要介绍了改进的搜索算法,第4部分讨论了一系列中文到英文的翻译实验,探讨了不同短语模板抽取方法及改进的搜索算法的效果,文章的第5部分进行了总结。
2 基于短语模板的翻译模型
2.1 短语模板
在计算翻译模型概率与语言模型概率时不可避免的会遇到数据稀疏问题,为此当构成短语对的双方同时出现表示命名实体或数字的词时,用规定的代表这一类词的变量来代替,这样就使原来的短语具有了泛化能力,也从一定程度上解决了数据稀疏问题,我们把含有变量的短语称为短语模板,这样不含变量的短语只是短语模板中的特例。例如把中文中表示时间和地点的词分别用TIMP_和LOC_代替,英文中用timp
文档评论(0)