《基于模板的统计翻译模型研究及汉英机器翻译系统实现》课件.pptVIP

《基于模板的统计翻译模型研究及汉英机器翻译系统实现》课件.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于模板的统计翻译 模型研究及 汉英机器翻译系统实现 目录 引言 综述 研究思路 实验方案 总结 引言 本文的主要工作 提出一个基于模板的统计翻译模型 给出一个汉英机器翻译系统的实现方案 本文的主要创新 给出了转换模板的定义及模板抽取算法 提出模板角色概念并给出三种统计翻译模型 给出该模型的参数估计算法 目录 引言 综述 机器翻译的范式 统计机器翻译综述(三种主要的方法) 统计机器翻译小结 研究思路 实验方案 总结 机器翻译的范式 统计机器翻译方法的界定 区别于规则方法: 利用语料库作为知识来源 无需人工编写规则 区别于实例方法或模板方法: 建立完整的统计模型 必须为整个翻译过程,而不是其中某个局部,建立统计模型 统计机器翻译的分类 基于平行概率语法的统计机器翻译模型 基于信源信道思想的统计机器翻译模型 IBM的Peter Brown等人首先提出 目前影响最大 几乎成为统计机器翻译的同义词 基于最大熵的统计机器翻译模型 源于基于特征的自然语言理解 Och提出,获ACL2002最佳论文 统计机器翻译的优缺点 优点 无需人工编写规则,利用语料库直接训练得到机器翻译系统;(但可以使用语言资源) 系统开发周期短; 鲁棒性好; 译文质量好; 缺点 时空开销大; 数据稀疏问题严重; 对语料库依赖性强; 算法研究不成熟。 基于平行概率语法的 统计机器翻译模型 基本思想 两种语言建立一套平行的语法规则, 规则一一对应 两套规则服从同样的概率分布 句法分析的过程决定了生成的过程 主要模型 Alshawi的基于Head Transducer的MT模型 吴德恺的Inverse Transduction Grammar(ITG) Takeda的Pattern-based CFG for MT Head Transducer MT (1) Head Transducer(中心词转录机)是一种Definite State Automata(有限状态自动机) 与一般的有限状态识别器的区别: 每一条边上不仅有输入,而且有输出; 不是从左至右输入,而是从中心词往两边输入 Head Transducer MT(2) Head Transducer MT(3) 所有的语言知识(词典、规则)都表现为Head Transducer; Head Transducer可以嵌套:一个Head Transducer的边是另一个的识别结果; 纯统计的训练方法;对齐的结果是依存树:不使用词性和短语类标记; Chart句法分析器。 Inversion Transduction Grammar(1) 比赛星期三开始。 The game will start on Wednesday。 Inversion Transduction Grammar(2) 规则形式: A → [ B C ] A → B C A → x/y 产生源语言和目标语言串分别为: BC BC:词序相同 BC CB:词序交换 x y:词典 Pattern-based CFG for MT (1) 每个翻译模板由一个源语言上下文无关规则和一个目标语言上下文无关规则(这两个规则称为翻译模板的骨架),以及对这两个规则的中心词约束和链接约束构成; 举例: S:2 → NP:1 岁:MP:2 了 ──────────── S:be → NP:1 be year:NP:2 old Pattern-based CFG for MT (2) 中心词约束:对于上下文无关语法规则中右部(子结点)的每个非终结符,可以指定其中心词;对于规则左部(父结点)的非终结符,可以直接指定其中心词,也可以通过使用相同的序号规定其中心词等于其右部的某个非终结符的中心词; 链接约束:源语言骨架和目标语言骨架的非终结符子结点通过使用相同的序号建立对应关系,具有对应关系的非终结符互为翻译。 信源-信道模型 T 统计机器翻译基本方程式 P.Brown称上式为统计机器翻译基本方程式 语言模型:P(S) 翻译模型:P(T|S) 语言模型反映“ S 像一个句子”的程度:流利度 翻译模型反映“T像S”的程度:忠实度 联合使用两个模型效果好于单独使用翻译模型,因为后者容易导致一些不好的译文。 语言模型与翻译模型 考虑汉语动词“打”的翻译:有几十种对应的英语词译文: 打人,打饭,打鱼,打毛衣,打猎,打草稿,…… 如果直接采用翻译模型,就需要根据上下文建立复杂的上下文条件概率模型 如果采用信源-信道思想,只要建立简单的翻译模型,可以同样达到目标词语选择的效果: 翻译模型:不考虑上下文,只考虑单词之间的翻译概率 语言模型:根据单词之间的同现选择最好的译文词 统计机器翻译的三个问题 三个问题: 语言模型P(S)的参数估计 翻译模型P(T|S)的参数估计 解码

文档评论(0)

沙卡娜 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档