- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于句法的统计机器翻译研究
刘群,熊德意,刘洋
中国科学院计算技术研究所
ac.cn
liuqun@ict
摘要:本文介绍了中科院计算所机器翻译课题组在基于句法的统计机器翻译方面的研究工作。文章提出了
两种基于句法的统计翻译模型。第一种模型定义了一种基于源语言句法分析的树到串对齐模板,并在此基
础卜建立统计翻译模型。第二种模型采用最大熵原理,对BTG模型中短语的调序概率进行建模。返两种模
型都一定程度上解决了统计帆器翻译中由于缺乏深层次句法知识导致的翻译错误问题。在2005年和2006
年NIST机器翻译评测数据集上的结果表明.这两种模型都取得了较好的结果,效果比单纯的基于短语的
统计翻译模型有显著提高。
关键词:统计机器翻译基于句法的统计翻译模型基于最大熵的短语调序模型
l 引言
最近儿年,基于短语的统计机器翻译(phrase—based
初提出的基于单词的统计翻译(word—basedSMT.下文简称WBSMT)在泽文质量上有了很人
的进步。简单地说,PBSMT在翻译时,首先将源语言句子切割成短语串,然后将这些短语串
中的源语言短语按照从双语语料库中提取出来的双语短语表映射成相应的目标语言短语,最
后对目标语言短语进行重排序。由f双语短语包含了局部的单词选择和单词顺序,以及很多
的翻译模式,得到了很多研究者的欢迎”1。
但是PBSMT本身并不是完美的,它也存在诸多固有的缺陷。首先短语之间的重排序在
PBSMT中并不能得到很好的解决,一些在语法上很明显的长距离语序调整,如英语中的SV0
结构应该翻译成日语的SOY结构,PBSMT通过跳转惩罚几乎无法做到,因为除了短语,它没
有任何可利用的结构信息。其次,PBSMT中的短语有着很严格的限制,源语言端和目标语言
端的短语必须连续.这很大程度上限制了PBSMT的作用范围。
正是由于PBSMT这些缺陷,一些研究者希望通过引入句法信息(源语言端的,目标语言
端的或同时两端的)来解决这些问题。这就是我们要探讨的基于句法的统计机器翻译
(syntax—based
译看作是一个用同步语法同时分析源语言和目标语言的过程:类似地,Alshawi等人…则将
源语言串导出目标语言句法树的过程:Lin”’试图用路径从源语言依存树导出目标语言依存
目标语言依存树。Chiang”。将PBSMT和同步语法结合.提出了结构化的短语模型。
本文中我们将介绍两个基于句法的统计机器翻译模型。第一个模型定义了一种基于源语
—-416—-
言句法分析的树到串对齐模板,并在此基础上建立统计翻译模型。第二种模型采用昂大熵原
一种是彤芷亡的SBS舸,第二种是孑号:;绁4多SBsMT,前者只是利用了语法形式,但是没有
语言学意义上的结构标记,后者则利用了语言学意义上的结构标记。按照此种分类标准,我
们第一种模型则既是移贰亡的SBSMT,也是著言学上膨SBSMT,第二种模型则只是形艽亡的
SBSMT。
本文的以下章节将首先介绍这两种模型,然后给出实验结果,证明我们的模型要优于传
统的PBSMT,最后基于对结果的分析,我们指出SBSMT将是SMT未来发展的趋势。
2 基于树到串对齐模板的统计翻译模型
基于树到串对齐模板(Tree—to—StringAIignment
模型是一种树到串的模型。与ISI提出的模型””不同的是,我们是从源语言的短语结构树到
目标语言的串,而不是从源语言的串到目标语言的结构树。从这点上说,基丁二该模型的翻译
实际是一个转换过程,而不是分析过程。下面我们将首先给出树到串对齐模板的定义并说明
如何通过TAT实现将源语言的短语结构树转换为目标语言的串,然后阐述TAT的抽取和解码
器的设计。
2,1树到串对齐模扳
树到串对齐模扳是一个3元组(T,S,A,T为源语言的句法结构子树,s为和T的叶子
结点相对应的目标串.该串可以含有终结符(目标语言单词),也可以含有非终结符(对应
于T中的非终结符叶子结点),A为T的叶子结点和S中元素(终结符和非终结符)的对齐
关系。圈1给出了几种不同的TAT。
N
文档评论(0)