《基于模板的统计翻译模型研究及汉英机器翻译系统实现》课件.pptVIP

下载本文档

3
0
约2.07万字
约 104页
2018-11-16 发布于广西
举报
版权申诉

《基于模板的统计翻译模型研究及汉英机器翻译系统实现》课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于模板的统计翻译模型研究及汉英机器翻译系统实现目录引言综述研究思路实验方案总结引言本文的主要工作提出一个基于模板的统计翻译模型给出一个汉英机器翻译系统的实现方案本文的主要创新给出了转换模板的定义及模板抽取算法提出模板角色概念并给出三种统计翻译模型给出该模型的参数估计算法目录引言综述机器翻译的范式统计机器翻译综述（三种主要的方法）统计机器翻译小结研究思路实验方案总结机器翻译的范式统计机器翻译方法的界定区别于规则方法：利用语料库作为知识来源无需人工编写规则区别于实例方法或模板方法：建立完整的统计模型必须为整个翻译过程，而不是其中某个局部，建立统计模型统计机器翻译的分类基于平行概率语法的统计机器翻译模型基于信源信道思想的统计机器翻译模型 IBM的Peter Brown等人首先提出目前影响最大几乎成为统计机器翻译的同义词基于最大熵的统计机器翻译模型源于基于特征的自然语言理解 Och提出，获ACL2002最佳论文统计机器翻译的优缺点优点无需人工编写规则，利用语料库直接训练得到机器翻译系统；（但可以使用语言资源）系统开发周期短；鲁棒性好；译文质量好；缺点时空开销大；数据稀疏问题严重；对语料库依赖性强；算法研究不成熟。基于平行概率语法的统计机器翻译模型基本思想两种语言建立一套平行的语法规则，规则一一对应两套规则服从同样的概率分布句法分析的过程决定了生成的过程主要模型 Alshawi的基于Head Transducer的MT模型吴德恺的Inverse Transduction Grammar（ITG） Takeda的Pattern-based CFG for MT Head Transducer MT (1) Head Transducer（中心词转录机）是一种Definite State Automata（有限状态自动机）与一般的有限状态识别器的区别：每一条边上不仅有输入，而且有输出；不是从左至右输入，而是从中心词往两边输入 Head Transducer MT(2) Head Transducer MT(3) 所有的语言知识（词典、规则）都表现为Head Transducer； Head Transducer可以嵌套：一个Head Transducer的边是另一个的识别结果；纯统计的训练方法；对齐的结果是依存树：不使用词性和短语类标记； Chart句法分析器。 Inversion Transduction Grammar(1) 比赛星期三开始。 The game will start on Wednesday。 Inversion Transduction Grammar(2) 规则形式： A → [ B C ] A → B C A → x/y 产生源语言和目标语言串分别为： BC BC：词序相同 BC CB：词序交换 x y：词典 Pattern-based CFG for MT (1) 每个翻译模板由一个源语言上下文无关规则和一个目标语言上下文无关规则（这两个规则称为翻译模板的骨架），以及对这两个规则的中心词约束和链接约束构成；举例： S:2 → NP:1 岁:MP:2 了 ──────────── S:be → NP:1 be year:NP:2 old Pattern-based CFG for MT (2) 中心词约束：对于上下文无关语法规则中右部（子结点）的每个非终结符，可以指定其中心词；对于规则左部（父结点）的非终结符，可以直接指定其中心词，也可以通过使用相同的序号规定其中心词等于其右部的某个非终结符的中心词；链接约束：源语言骨架和目标语言骨架的非终结符子结点通过使用相同的序号建立对应关系，具有对应关系的非终结符互为翻译。信源－信道模型Ｔ统计机器翻译基本方程式 P.Brown称上式为统计机器翻译基本方程式语言模型：P(S) 翻译模型：P(T|S) 语言模型反映“ S 像一个句子”的程度：流利度翻译模型反映“T像S”的程度：忠实度联合使用两个模型效果好于单独使用翻译模型，因为后者容易导致一些不好的译文。语言模型与翻译模型考虑汉语动词“打”的翻译：有几十种对应的英语词译文：打人，打饭，打鱼，打毛衣，打猎，打草稿，…… 如果直接采用翻译模型，就需要根据上下文建立复杂的上下文条件概率模型如果采用信源－信道思想，只要建立简单的翻译模型，可以同样达到目标词语选择的效果：翻译模型：不考虑上下文，只考虑单词之间的翻译概率语言模型：根据单词之间的同现选择最好的译文词统计机器翻译的三个问题三个问题：语言模型P(S)的参数估计翻译模型P(T|S)的参数估计解码