- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器翻译原理与方法-自然语言处理
机器翻译原理与方法
第四讲 基于词的统计机器翻译方法
刘群
中国科学院计算技术研究所
liuqun@ict.ac.cn
北京大学软件与微电子学院2006-2007年度夏季课程
内容提要
• 概述
• IBM模型的理论
• IBM模型的训练
• IBM模型的解码
• Giza++的使用
• 词语对齐的其他方法
• 机器翻译自动评价
机器翻译原理与方法讲义(02)机器翻译方法 2
信源信道模型 (1)
• 信源信道模型又称噪声信道模型,是由IBM
公司的Peter F. Brown等人于1990年提出来
的:
Peter F. Brown, John Cocke, Stephen A. Della
Pietra, Vincent J. Della Pietra, Fredrick Jelinek,
John D. Lafferty, Robert L. Mercer, Paul S.
Roossin, A Statistical Approach to Machine
Translation, Computational Linguistics,1990
机器翻译原理与方法讲义(02)机器翻译方法 3
信源信道模型 (2)
P (E ) E P (F |E ) F
• 假设我们看到的源语言文本F是由一段目标语言文
本E经过某种奇怪的编码得到的,那么翻译的目标
就是要将F还原成E,这也就是就是一个解码的过
程。
• 注意,在信源信道模型中:
– 噪声信道的源语言是翻译的目标语言
– 噪声信道的目标语言是翻译的源语言
这与整个机器翻译系统翻译方向的刚好相反
机器翻译原理与方法讲义(02)机器翻译方法 4
统计机器翻译基本方程式
E arg max (E) (F | E) P P
E
• P.Brown称上式为统计机器翻译基本方程式
– 语言模型:P(E)
– 翻译模型:P(F|E)
• 语言模型反映“ E像一个句子”的程度:流利度
• 翻译模型反映“F像E”的程度:忠实度
• 联合使用两个模型效果好于单独使用翻译模
型,因为后者容易导致一些不好的译文。
机器翻译原理与方法讲义(02)机器翻译方法 5
语言模型与翻译模型
• 考虑汉语动词“打”的翻译:有几十种对应的英语词
译文:
打人,打饭,打鱼,打毛衣,打猎,打草稿,……
• 如果直接采用翻译模型,就需要根据上下文建立
复杂的上下文条件概率模型
• 如果采用信源-信道思想,只要建立简单的翻译
模型,可以同样达到目标词语选择的效果:
– 翻译模型:不考虑上下文,只考虑单词之间的翻译概率
– 语言模型:根据单词之间的同现选择最好的译文词
文档评论(0)