机器翻译原理与方法-自然语言处理.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器翻译原理与方法-自然语言处理

机器翻译原理与方法 第四讲 基于词的统计机器翻译方法 刘群 中国科学院计算技术研究所 liuqun@ict.ac.cn 北京大学软件与微电子学院2006-2007年度夏季课程 内容提要 • 概述 • IBM模型的理论 • IBM模型的训练 • IBM模型的解码 • Giza++的使用 • 词语对齐的其他方法 • 机器翻译自动评价 机器翻译原理与方法讲义(02)机器翻译方法 2 信源信道模型 (1) • 信源信道模型又称噪声信道模型,是由IBM 公司的Peter F. Brown等人于1990年提出来 的: Peter F. Brown, John Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, Fredrick Jelinek, John D. Lafferty, Robert L. Mercer, Paul S. Roossin, A Statistical Approach to Machine Translation, Computational Linguistics,1990 机器翻译原理与方法讲义(02)机器翻译方法 3 信源信道模型 (2) P (E ) E P (F |E ) F • 假设我们看到的源语言文本F是由一段目标语言文 本E经过某种奇怪的编码得到的,那么翻译的目标 就是要将F还原成E,这也就是就是一个解码的过 程。 • 注意,在信源信道模型中: – 噪声信道的源语言是翻译的目标语言 – 噪声信道的目标语言是翻译的源语言 这与整个机器翻译系统翻译方向的刚好相反 机器翻译原理与方法讲义(02)机器翻译方法 4 统计机器翻译基本方程式 E arg max (E) (F | E) P P E • P.Brown称上式为统计机器翻译基本方程式 – 语言模型:P(E) – 翻译模型:P(F|E) • 语言模型反映“ E像一个句子”的程度:流利度 • 翻译模型反映“F像E”的程度:忠实度 • 联合使用两个模型效果好于单独使用翻译模 型,因为后者容易导致一些不好的译文。 机器翻译原理与方法讲义(02)机器翻译方法 5 语言模型与翻译模型 • 考虑汉语动词“打”的翻译:有几十种对应的英语词 译文: 打人,打饭,打鱼,打毛衣,打猎,打草稿,…… • 如果直接采用翻译模型,就需要根据上下文建立 复杂的上下文条件概率模型 • 如果采用信源-信道思想,只要建立简单的翻译 模型,可以同样达到目标词语选择的效果: – 翻译模型:不考虑上下文,只考虑单词之间的翻译概率 – 语言模型:根据单词之间的同现选择最好的译文词

文档评论(0)

ailuojue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档