- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
常用统计翻译模型在口语汉英翻译中比较研究
常用统计翻译模型在口语汉英翻译中比较研究
摘 要:通过汉语到英语的翻译实验以及对结果译文的分析,对基于词的模型、基于短语的模型和基于句法的模型的翻译性能进行了比较。结果表明基于短语的模型性能优于其他两个模型,但是使用的参数较多;基于句法的模型虽然翻译性能不理想,但可以用较少的参数表达更丰富的信息,值得深入研究。
关键词:自然语言处理; 统计机器翻译; 翻译模型; 句法分析器
中图分类号:TP391.2文献标志码:A
文章编号:1001-3695(2007)06-0069-03
机器翻译的目标就是将给定的一个源语言文本翻译成目标语言文本。对汉英翻译来说,输入一个汉语句子??c(c??m??1,m为句子长度),可能会有很多英语译文e(e??n??1,n??为句子长度),统计机器翻译的任务是在所有可能的译文中,找到最佳译文。根据Bayes公式可得到
早在1949年,Weaver就提出利用统计方法研究机器翻译问题。其基本思想是把外语看成是对本地语言的一种编码,而翻译过程就是对外语文章进行解码,用本地语言表达同样的意思。20世纪90年代初,IBM T.J. Watson研究中心的Brown等人开创性地提出了词对词的统计翻译模型,并以此为基础构建了Candide系统[1]。此后对IBM模型比较重要的改进包括在IBM模型2的基础上提出基于隐马尔可夫模型的对齐模型(HMM??based Alignment Model),以及基于IBM模型4和基于HMM词对齐模型的对数线性模型。在基于词的统计翻译模型基础上,又相继提出了基于短语和基于句法的统计翻译模型。基于短语的统计翻译模型是目前研究的一个热点,主要包括基于浅层短语结构的翻译模型、对齐模板(Alignment Template)模型、Koehn的短语翻译模型、基于双语语块(Co??Chunk)的翻译模型等。基于句法的统计翻译模型由于引入了层次结构信息,有望处理长距离依赖和调序问题,正逐渐成为新的研究热点。这类模型大致可以分为语言学驱动(Linguistically??motivated)的模型和非语言学驱动的模型。前者依赖于句法分析树的指导,如Yamada的树―串统计翻译模型、概率树替换文法(Probabilistic Tree Substitution Grammar)模型以及多文本文法模型(Multi??Text Gramar,MTG);后者是无指导的,在翻译过程中建立层次结构,主要包括反向转换文法(Inversion Transduction Grammar,ITG)模型、中心词转录机(Head Transducer)模型、层次化短语翻译模型(Hierarchical Phrase??based Model)等。此外还有一类模型,利用句法信息来抽取非层次化的短语翻译等价对,可以看做是介于短语和句法翻译模型之间的一类统计翻译模型。
1 翻译模型概述
1.1 基于词的翻译模型??
IBM翻译模型是目前统计翻译模型研究的基础,包括模型1-5。其中模型1、2是基于对齐的模型;模型3-5是基于繁殖数的模型。
模型4不仅考虑了繁殖概率,还将语言片作为一个整体进行考虑。模型5在模型4基础上进一步扩展,不仅考虑了当前对位状况,还考虑了对位历史情况,因此是一个无缺陷的模型;但模型过于复杂,对齐的效果与模型4相差不多。在实际的翻译应用中采用模型4就可以了。??
1.2 基于短语的翻译模型??
基于短语的模型在基于词的模型的基础上引入了上下文信息,基核心是短语的抽取与评分。通常情况下,短语的抽取是基于词对齐的结果;而在IBM的模型中,对于每一个汉语词,只允许最多一个英语单词与之相对应。但是在实际翻译中存在多对多的情况,需要进行一些转换。短语抽取的启发式处理过程如下[4,5]:??
(1)从中英文的平行语料中获得两种词对齐表,即汉语到英语的对齐表和英语到汉语的对齐表:??
(2)从两个对齐表交集中的词对齐开始。选择一个对齐??(e,c),从中英文词的邻节点(enew, cnew)开始扩展。如果这两个词都没有对齐的目标,并且(e??new,c??new)出现在并集中,就扩展到短语中;接着第二个,依此类推,直到没有可以扩展的词为止。由此可以获得短语的翻译概率。??
对于抽取的短语片断,要满足以下原则:
(1)汉语短语片段中的每一个词对应的英语词都应该不能出现在与汉语短语对应的英语短语片段之外,反之亦然;
(2)对于汉语短语片段中的每个词,对应的英语短语中不能没有英语词与之相对应,反之亦然。
1.3 基于句法的解释模型??
基于句法的翻译模型有很多种。在实验中采用的模型是由Melamed提出并在
文档评论(0)