基于模板的统计翻译模型研究及汉英机器翻译系统实现课件.pptVIP

基于模板的统计翻译模型研究及汉英机器翻译系统实现课件.ppt

  1. 1、本文档共104页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于模板的统计翻译模型研究及汉英机器翻译系统实现课件.ppt

基于模板的转换(3) (c) ap(np:1 u:2) ? pp(p:2 np:1) p b n u np pp:ap np of 其它 工厂 的 n light p in t the t the n experiences pp np np pp np 基于模板的转换(4) p np of n light p in t the t the n experiences pp np np pp np b n np:np ap 其它 工厂 p:u 的 (d) u(的) ? p(of) (e) np(b:1 n:2) ? np(t:1 n:2) 基于模板的转换(5) (f) b(其他) ? t(other) (g) n(工厂) ? n(factories) t:b n:n np 其它 工厂 p of p np of n light p in t the t the n experiences pp np np pp np ap 基于模板的转换(6) t n other factories np p of p np of n light p in t the t the n experiences pp np np pp np ap 结 果 建立基于模板的翻译模型 将翻译概率转化为对齐概率: 将对齐概率理解为标注概率: 将句法树的翻译过程理解为对源语言句法树结点的一个标注过程 为句法树的标记建立概率模型 转换模板的标注-图示 为源语言句法树的每一个结点进行转换模板标注: v b n u n np ap np vp 比照 其它 工厂 的 做法 (a) (b) (c) (d) (e) (f) (g) (a) (b) 转换模板的标注-问题 问题: 一个转换模板作用于多个源语言结点时,对于不同源语言结点的标记无法区分 举例说明: 上例中模板(a)同时作用于vp和v两个结点,在计算标注的概率时,对于这两个结点显然要作不同的考虑,仅采用模板标记容易造成混淆。 模板角色的定义 模板角色: 转换模板中源语言句法子树的每一个非叶结点被称为一个模板角色 例子 模板: (a) vp(v(比照) np:1) ? …… 模板角色: (a) vp[a0](v[a1](比照) np:1) vp vp np v (a1) (a0) 模板角色的标注-图示 v b n u n np ap np vp 比照 其它 工厂 的 做法 (a0) (b0) (c0) (d0) (e0) (f0) (g0) (a1) (b1) 为源语言句法树的每一个结点进行模板角色标注: 模板角色标注-概率模型1 假设每一个源语言结点的模板角色标记只与该结点的句法标记有关,与其他源语言结点的句法标记和模板角色标记都无关。于是: 这里,N是源语言句法树上任何一个结点,Syn(N)是该结点对应的句法标记,Role(N)是该结点对应的模板角色标记。 对应的参数归一化条件为: 这里Syn是任何一个句法标记,Role是任何一个模板角色。 模板角色标注-概率模型2 假设每一个源语言结点的模板角色标记只与该结点及其子结点的句法标记有关,与其他源语言结点的句法标记和模板角色标记都无关。也就是说,一个源语言结点的模板角色标记只与产生该结点的源语言上下文无关规则有关。于是: 这里,N是源语言句法树上任何一个结点,Syn(N)是该结点对应的句法标记,Rule(N)是产生该结点的上下文无关规则。 对应的参数归一化条件为: 模板角色标注-概率模型3 假设每一个源语言结点的模板角色标记除了与该结点及其子结点的句法标记有关外,而且与其父结点的模板角色标记有关,与其他源语言结点的句法标记和模板角色标记都无关。于是: 这里,N是源语言句法树上任何一个结点,Syn(N)是该结点对应的句法标记,Rule(N)是产生该结点的上下文无关规则,Parent(N)是该结点的父结点。 对应的参数归一化条件为: 训练方法 算法 Viterbi算法:每次只考虑最大可能的对齐 EM算法:考虑所有可能的对齐 基本过程:迭代,直到收敛 短语对齐 模板抽取 参数估计 参数训练算法目前有了初步的设想,但考虑得还不成熟,需要尝试多种办法并通过实验验证,下面通过一个例子简单说明 EGYPT工具包 EGYPT的模块 GIZA:这个模块用于从双语语料库中抽取统计知识(参数训练) Decoder:解码器,用于执行具体的翻译过程(在信源信道模型中,“翻译”就是“解码”) Cairo:整个翻译系统的可视化界面,用于管理所有的参数、查看双语语料库对齐的过程和翻译模型的解码过程 Whittle:语料库预处理工具 EGYPT可在网上免费下载,成为SMT的基准 EGYPT工具包的性能 “当解码器的原形系统在研讨班上完成时,我们很

文档评论(0)

liuxiaoyu99 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档